概述
2026-05-12
产品简介
ZEGO 数字人 API 依托即构自研 AI 引擎,支持服务端快速对接接入。
开发者可定制生成自然生动的数字人形象,基于定制形象实时驱动推理输出实时流,轻松实现实时互动、播报、直播等能力,可灵活适配 AI 陪伴、智能客服、直播电商、AI 教师等多元业务场景。
产品优势
媲美真人的数字人形象
基于 ZEGO 自研数字人形象生成引擎,开发者可实现图片数字人、真人数字人2种形象定制服务。
- 图片数字人(推荐):只需一张图片,经过 AI 训练即可让图片“活”过来,图片支持真人、卡通、虚拟人等各类形象;生成的形象口齿清晰、表情自然、并能具有一定的自然动作、活泼生动。
- 真人数字人:采集一段真人拍摄视频,经过 AI 训练后生成神态、动作、表情媲美真人的数字人,可自定义背景、支持最高2k超清画质、支持自定义动作驱动,数字人形象逼真,效果自然。
多种驱动形式,高质量实时流输出
- 通过文本、音频、实时音视频流驱动数字人进行内容生成,可输出最低延迟 < 200ms 的实时音视频流,满足直播、互动对话等超低延时实时互动场景需要。
- 可通过关键字驱动数字人进行指向性动作,满足自定义行为诉求,让数字人更加生动自然。
- 照片数字人驱动支持身体动作,让照片不止会“说”,更能“动”起来,形象“栩栩如生”。
- 极致性价比:超低价格、支持大并发,满足用量较大的互动对话、互动教学等场景,帮助业务极致降本。
说明
使用实时音视频流输出功能,需搭配 实时音视频 能力。
灵活接入,高效集成
- 高效对接:标准化API,最少两个接口即可完成数字人能力构建
- 多样组合:原子能力自由组合,满足业务灵活定制,适配不同场景需求
- 全平台支持:兼容Web、App、小程序等多平台
- 多部署方式:支持公有云、私有化等部署形式
产品功能
| 功能模块 | 功能名称 | 功能描述 |
|---|---|---|
| 定制数字人形象 | 图片数字人 | 通过一张图片即可快速生成数字人形象,图片规格可参考 图片数字人素材规范。 |
| 真人数字人形象 | 拍摄一段真人视频,即可定制真人数字人形象,拍摄可参考 视频数字人采集指南。 | |
| 自定义动作库 | 在定制形象时,可生成具有特殊含义的动作,比如“比心”、“打招呼”、“比数字”等,可驱动数字人在特殊场景下进行自定义动作。 | |
| 数字人管理 | 查询数字人形象信息 | 查询可用的公共/定制的数字人形象、音色列表。 |
| 实时音视频流输出 | 创建/停止数字人音视频流 | 支持根据业务场景需求,自行创建/停止数字人音视频流任务。 |
| 自定义设置最大流时长 | 设置数字人视频流任务最大时长,持续时间达到该值自动结束,最大24H。 | |
| 多模态驱动数字人 | 支持通过文本、音频文件、RTC流式、WebSocket音频流式驱动数字人。 | |
| 自定义数字人动作 | 支持驱动数字人进行指向性动作(需要先在形象定制中生成指向性动作)。 | |
| 打断数字人驱动行为 | 支持打断正在驱动中的数字人,以便于开启新的驱动任务。 | |
| 获取音视频流任务驱动状态 | 获取数字人视频流的驱动任务状态,包括历史的驱动记录;状态包括:
| |
| 获取音视频流任务状态 | 获取音视频流的任务状态,支持查询已经结束的视频流任务状态;状态包括:
| |
| 查询所有运行中的数字人音视频任务 |
|
