概述
说明
数字人PaaS 全新升级并更新为数字人 API ,为开发者提供低成本、高质量的数字人服务:
- 全新自研推理方案,超低价格、支持大并发,极致性价比。
- 图片数字人方案升级,增加自然动作,形象更生动活泼。
- 推理性能大提升,推理耗时 < 500ms;搭配 AI agent 快速实现AI对话,互动时延 < 1.5s。
- 优化 服务端 API ,更灵活的输出原子能力,满足业务灵活定制集成。
产品简介
ZEGO 数字人 API ,基于即构自研的 AI 引擎,通过服务端 API 快速接入,开发者可快速定制生成形象生动的数字人形象,基于定制形象输出文件视频或实时音视频流,灵活适用于AI 陪伴、数字人客服、直播电商、AI教师等场景。
产品优势
媲美真人的数字人形象
基于 ZEGO 自研数字人形象生成引擎,开发者可实现真人数字人、图片数字人2种形象定制服务。
- 真人数字人:采集一段真人拍摄视频,经过 AI 训练后生成的神态、动作、表情媲美真人的数字人,可自定义背景、支持最高2k超清画质、支持自定义动作驱动,数字人形象逼真,效果自然。
- 图片数字人:只需一张图片,经过 AI 训练即可让图片“活”过来,图片支持真人、卡通、虚拟人等各类形象;生成的形象口齿清晰、表情自然、并能具有一定的自然动作、活泼生动。
多模态驱动,高质量内容生成
ZEGO 自研数字人内容生成引擎,支持异步短视频文件生成 和 实时音视频流输出。
- 异步短视频文件生成:调用 API 接口自定义数字人短视频制作所需要的背景、形象、文本等配置,支持输出不同视频格式、最高2K分辨率超清画质的短视频内容。
- 实时音视频流输出:
- 通过文本、音频、实时音视频流驱动数字人进行内容生成,可输出最低延迟 < 500ms 的实时音视频流,满足直播、互动对话等超低延时实时互动场景需要。
- 可通过关键字驱动数字人进行指向性动作,满足自定义行为诉求,让数字人更加生动自然。
- 照片数字人驱动支持身体动作,让照片不止会“说”,更能“动”起来,形象“栩栩如生”。
- 极致性价比:超低价格、支持大并发,满足用量较大的互动对话、互动教学等场景,帮助业务极致降本。
说明
使用实时音视频流输出功能,需搭配 实时音视频 能力。
灵活接入,高效集成
- 高效对接:标准化API,最少两个接口即可完成数字人能力构建
- 多样组合:原子能力自由组合,满足业务灵活定制,适配不同场景需求
- 全平台支持:兼容Web、App、小程序等多平台
- 多部署方式:支持公有云、私有化等部署形式
产品功能
功能模块 | 功能名称 | 功能描述 |
---|---|---|
定制数字人形象 | 真人数字人形象 | 拍摄一段真人视频,即可定制真人数字人形象,拍摄可参考 视频数字人采集指南。 |
图片数字人 | 通过向图片生成数字人 API 上传一张图片即可快速生成数字人形象。 说明 功能内测中,请联系 ZEGO 商务。 | |
数字人资产查询 | 查询可用的公共/定制的数字人形象、音色列表。 | |
异步短视频文件生成 | 短视频文件生成 |
说明 功能升级中,请联系 ZEGO 商务 |
短视频配置 |
| |
实时音视频流输出 | 创建/停止数字人音视频流 | 支持根据业务场景需求,自行创建/停止数字人音视频流任务。 |
自定义设置最大流时长 | 设置数字人视频流任务最大时长,持续时间达到该值自动结束,最大24H。 | |
自定义数字人 |
| |
自定义视频流参数 | 设置房间 ID 和流 ID。 | |
自定义视频参数 | 设置音视频流的编码方式、分辨率、码率。 | |
多模态驱动数字人 | 支持通过文本、音频文件、RTC流式、WebSocket音频流式驱动数字人。 | |
自定义数字人动作 | 支持调用动作名称驱动数字人进行指定动作。 | |
打断数字人驱动行为 | 支持打断正在驱动中的数字人,以便于开启新的驱动任务。 | |
获取音视频流任务驱动状态 | 获取数字人视频流的驱动任务状态,包括历史的驱动记录;状态包括:
| |
获取音视频流任务状态 | 获取音视频流的任务状态,支持查询已经结束的视频流任务状态;状态包括:
| |
查询所有运行中的数字人音视频任务 |
|