数字人 API

产品介绍

数字人形象定制

形象定制流程

快速开始

快速跑通示例源码

实现数字人 AI 互动对话

实现数字人实时播报

获取数字人驱动状态

实时流式输出 API

数字人管理

查询数字人形象列表

查看形象详情信息

音色管理

实时流式播报

全局返回码

概述

2026-04-07

产品简介

ZEGO 数字人 API ，基于即构自研的 AI 引擎，通过服务端 API 快速接入，开发者可快速定制生成形象生动的数字人形象，基于定制形象输出视频文件或实时音视频流，灵活适用于AI 陪伴、数字人客服、直播电商、AI教师等场景。

产品优势

媲美真人的数字人形象

基于 ZEGO 自研数字人形象生成引擎，开发者可实现真人数字人、图片数字人2种形象定制服务。

真人数字人：采集一段真人拍摄视频，经过 AI 训练后生成神态、动作、表情媲美真人的数字人，可自定义背景、支持最高2k超清画质、支持自定义动作驱动，数字人形象逼真，效果自然。
图片数字人：只需一张图片，经过 AI 训练即可让图片“活”过来，图片支持真人、卡通、虚拟人等各类形象；生成的形象口齿清晰、表情自然、并能具有一定的自然动作、活泼生动。

多模态驱动，高质量内容生成

ZEGO 自研数字人内容生成引擎，支持异步短视频文件生成和实时音视频流输出。

异步短视频文件生成：调用 API 接口自定义数字人短视频制作所需要的背景、形象、文本等配置，支持输出不同视频格式、最高2K分辨率超清画质的短视频内容。
实时音视频流输出：
- 通过文本、音频、实时音视频流驱动数字人进行内容生成，可输出最低延迟 < 200ms 的实时音视频流，满足直播、互动对话等超低延时实时互动场景需要。
- 可通过关键字驱动数字人进行指向性动作，满足自定义行为诉求，让数字人更加生动自然。
- 照片数字人驱动支持身体动作，让照片不止会“说”，更能“动”起来，形象“栩栩如生”。
- 极致性价比：超低价格、支持大并发，满足用量较大的互动对话、互动教学等场景，帮助业务极致降本。

说明

使用实时音视频流输出功能，需搭配实时音视频能力。

灵活接入，高效集成

高效对接：标准化API，最少两个接口即可完成数字人能力构建
多样组合：原子能力自由组合，满足业务灵活定制，适配不同场景需求
全平台支持：兼容Web、App、小程序等多平台
多部署方式：支持公有云、私有化等部署形式

产品功能

功能模块	功能名称	功能描述
定制数字人形象	真人数字人形象	拍摄一段真人视频，即可定制真人数字人形象，拍摄可参考视频数字人采集指南。
	图片数字人	通过图片生成数字人 API 上传一张图片即可快速生成数字人形象。说明功能内测中，请联系 ZEGO 商务。
	自定义动作库	在定制形象时，可生成具有特殊含义的动作，比如“比心”、“打招呼”、“比数字”等，可驱动数字人在特殊场景下进行自定义动作。
数字人资产查询	查询可用的公共/定制的数字人形象、音色列表。
异步短视频文件生成	短视频文件生成	支持生成的文件格式：MP4。支持生成的视频清晰度：1080P、2K。说明功能升级中，请联系 ZEGO 商务
异步短视频文件生成	短视频配置	支持替换视频背景（需形象是绿幕背景）；支持增加装饰图片。支持自定义布局、自定义短视频文本、短视频语速等设置。
实时音视频流输出	创建/停止数字人音视频流	支持根据业务场景需求，自行创建/停止数字人音视频流任务。
	自定义设置最大流时长	设置数字人视频流任务最大时长，持续时间达到该值自动结束，最大24H。
	多模态驱动数字人	支持通过文本、音频文件、RTC流式、WebSocket音频流式驱动数字人。
	自定义数字人动作	支持驱动数字人进行指向性动作（需要先在形象定制中生成指向性动作）。
	打断数字人驱动行为	支持打断正在驱动中的数字人，以便于开启新的驱动任务。
	获取音视频流任务驱动状态	获取数字人视频流的驱动任务状态，包括历史的驱动记录；状态包括： 1：排队中。 2：驱动中。 3：驱动失败。 4：驱动结束。 5：驱动中断（被打断）。
	获取音视频流任务状态	获取音视频流的任务状态，支持查询已经结束的视频流任务状态；状态包括： 1：视频流任务初始化中。 2：视频流任务初始化失败。 3：推流中。 4：正在停止推流。 5：已停止推流。
	查询所有运行中的数字人音视频任务	获取所有运行中的数字人音视频任务列表及推流状态。状态包括： 1：视频流任务初始化中。 3：推流中。

当前页

媲美真人的数字人形象

多模态驱动，高质量内容生成

灵活接入，高效集成

返回到顶部