数字人 API

产品介绍

数字人形象定制

形象定制流程

快速开始

快速跑通示例源码

实现数字人 AI 互动对话

实现数字人实时播报

获取数字人驱动状态

实时流式输出 API

数字人管理

查询数字人形象列表

查看形象详情信息

音色管理

实时流式播报

全局返回码

概述

2026-05-12

产品简介

ZEGO 数字人 API 依托即构自研 AI 引擎，支持服务端快速对接接入。
开发者可定制生成自然生动的数字人形象，基于定制形象实时驱动推理输出实时流，轻松实现实时互动、播报、直播等能力，可灵活适配 AI 陪伴、智能客服、直播电商、AI 教师等多元业务场景。

产品优势

媲美真人的数字人形象

基于 ZEGO 自研数字人形象生成引擎，开发者可实现图片数字人、真人数字人2种形象定制服务。

图片数字人（推荐）：只需一张图片，经过 AI 训练即可让图片“活”过来，图片支持真人、卡通、虚拟人等各类形象；生成的形象口齿清晰、表情自然、并能具有一定的自然动作、活泼生动。
真人数字人：采集一段真人拍摄视频，经过 AI 训练后生成神态、动作、表情媲美真人的数字人，可自定义背景、支持最高2k超清画质、支持自定义动作驱动，数字人形象逼真，效果自然。

多种驱动形式，高质量实时流输出

通过文本、音频、实时音视频流驱动数字人进行内容生成，可输出最低延迟 < 200ms 的实时音视频流，满足直播、互动对话等超低延时实时互动场景需要。
可通过关键字驱动数字人进行指向性动作，满足自定义行为诉求，让数字人更加生动自然。
照片数字人驱动支持身体动作，让照片不止会“说”，更能“动”起来，形象“栩栩如生”。
极致性价比：超低价格、支持大并发，满足用量较大的互动对话、互动教学等场景，帮助业务极致降本。

说明

使用实时音视频流输出功能，需搭配实时音视频能力。

灵活接入，高效集成

高效对接：标准化API，最少两个接口即可完成数字人能力构建
多样组合：原子能力自由组合，满足业务灵活定制，适配不同场景需求
全平台支持：兼容Web、App、小程序等多平台
多部署方式：支持公有云、私有化等部署形式

产品功能

功能模块	功能名称	功能描述
定制数字人形象	图片数字人	通过一张图片即可快速生成数字人形象，图片规格可参考图片数字人素材规范。
	真人数字人形象	拍摄一段真人视频，即可定制真人数字人形象，拍摄可参考视频数字人采集指南。
	自定义动作库	在定制形象时，可生成具有特殊含义的动作，比如“比心”、“打招呼”、“比数字”等，可驱动数字人在特殊场景下进行自定义动作。
数字人管理	查询数字人形象信息	查询可用的公共/定制的数字人形象、音色列表。
实时音视频流输出	创建/停止数字人音视频流	支持根据业务场景需求，自行创建/停止数字人音视频流任务。
	自定义设置最大流时长	设置数字人视频流任务最大时长，持续时间达到该值自动结束，最大24H。
	多模态驱动数字人	支持通过文本、音频文件、RTC流式、WebSocket音频流式驱动数字人。
	自定义数字人动作	支持驱动数字人进行指向性动作（需要先在形象定制中生成指向性动作）。
	打断数字人驱动行为	支持打断正在驱动中的数字人，以便于开启新的驱动任务。
	获取音视频流任务驱动状态	获取数字人视频流的驱动任务状态，包括历史的驱动记录；状态包括： 1：排队中。 2：驱动中。 3：驱动失败。 4：驱动结束。 5：驱动中断（被打断）。
	获取音视频流任务状态	获取音视频流的任务状态，支持查询已经结束的视频流任务状态；状态包括： 1：视频流任务初始化中。 2：视频流任务初始化失败。 3：推流中。 4：正在停止推流。 5：已停止推流。
	查询所有运行中的数字人音视频任务	获取所有运行中的数字人音视频任务列表及推流状态。状态包括： 1：视频流任务初始化中。 3：推流中。

当前页

媲美真人的数字人形象

多种驱动形式，高质量实时流输出

灵活接入，高效集成

返回到顶部