当前页

概述

2026-05-12

产品简介

ZEGO 数字人 API 依托即构自研 AI 引擎,支持服务端快速对接接入。
开发者可定制生成自然生动的数字人形象,基于定制形象实时驱动推理输出实时流,轻松实现实时互动、播报、直播等能力,可灵活适配 AI 陪伴、智能客服、直播电商、AI 教师等多元业务场景。

产品优势

媲美真人的数字人形象

基于 ZEGO 自研数字人形象生成引擎,开发者可实现图片数字人、真人数字人2种形象定制服务。

  • 图片数字人(推荐):只需一张图片,经过 AI 训练即可让图片“活”过来,图片支持真人、卡通、虚拟人等各类形象;生成的形象口齿清晰、表情自然、并能具有一定的自然动作、活泼生动。
  • 真人数字人:采集一段真人拍摄视频,经过 AI 训练后生成神态、动作、表情媲美真人的数字人,可自定义背景、支持最高2k超清画质、支持自定义动作驱动,数字人形象逼真,效果自然。

多种驱动形式,高质量实时流输出

  • 通过文本、音频、实时音视频流驱动数字人进行内容生成,可输出最低延迟 < 200ms 的实时音视频流,满足直播、互动对话等超低延时实时互动场景需要。
  • 可通过关键字驱动数字人进行指向性动作,满足自定义行为诉求,让数字人更加生动自然。
  • 照片数字人驱动支持身体动作,让照片不止会“说”,更能“动”起来,形象“栩栩如生”。
  • 极致性价比:超低价格、支持大并发,满足用量较大的互动对话、互动教学等场景,帮助业务极致降本。
说明

使用实时音视频流输出功能,需搭配 实时音视频 能力。

灵活接入,高效集成

  • 高效对接:标准化API,最少两个接口即可完成数字人能力构建
  • 多样组合:原子能力自由组合,满足业务灵活定制,适配不同场景需求
  • 全平台支持:兼容Web、App、小程序等多平台
  • 多部署方式:支持公有云、私有化等部署形式

产品功能

功能模块功能名称功能描述
定制数字人形象图片数字人通过一张图片即可快速生成数字人形象,图片规格可参考 图片数字人素材规范
真人数字人形象拍摄一段真人视频,即可定制真人数字人形象,拍摄可参考 视频数字人采集指南
自定义动作库在定制形象时,可生成具有特殊含义的动作,比如“比心”、“打招呼”、“比数字”等,可驱动数字人在特殊场景下进行自定义动作。
数字人管理查询数字人形象信息查询可用的公共/定制的数字人形象、音色列表。
实时音视频流输出创建/停止数字人音视频流支持根据业务场景需求,自行创建/停止数字人音视频流任务。
自定义设置最大流时长设置数字人视频流任务最大时长,持续时间达到该值自动结束,最大24H。
多模态驱动数字人支持通过文本、音频文件、RTC流式、WebSocket音频流式驱动数字人。
自定义数字人动作支持驱动数字人进行指向性动作(需要先在形象定制中生成指向性动作)。
打断数字人驱动行为支持打断正在驱动中的数字人,以便于开启新的驱动任务。
获取音视频流任务驱动状态获取数字人视频流的驱动任务状态,包括历史的驱动记录;状态包括:
  • 1:排队中。
  • 2:驱动中。
  • 3:驱动失败。
  • 4:驱动结束。
  • 5:驱动中断(被打断)。
获取音视频流任务状态获取音视频流的任务状态,支持查询已经结束的视频流任务状态;状态包括:
  • 1:视频流任务初始化中。
  • 2:视频流任务初始化失败。
  • 3:推流中。
  • 4:正在停止推流。
  • 5:已停止推流。
查询所有运行中的数字人音视频任务
  • 获取所有运行中的数字人音视频任务列表及推流状态。
  • 状态包括:
    • 1:视频流任务初始化中。
    • 3:推流中。

下一篇

发布日志

当前页

返回到顶部