数智人 PaaS 服务
  • 产品简介
    • 概述
    • 发布日志
  • 快速开始
    • 查看数智人资产
    • 合成异步文件视频
    • 合成实时流式视频
  • 服务端 API
  • 形象声音采集指南
  • 文档中心
  • 数智人 PaaS 服务
  • 产品简介
  • 概述

概述

更新时间:2023-12-22 14:39

产品简介

数智人 PaaS 服务,基于数智人底层 AI 能力,通过云端接口,助力开发者生成数智人文件视频或创建音视频流,灵活适用各式数智人场景,如短视频创作、直播等。

如需使用本产品创建直播并推流,请搭配 实时音视频

产品优势

快速集成

简单调用服务端 API,即可快速实现功能,开发者无需部署运维服务端,大幅度降低开发成本,助力产品快速上线。

丰富的数智人配置

支持通过格式、分辨率、音色、形象等多维度配置接口,灵活应用于各类应用场景。

创作方式灵活

支持生成异步视频文件、实时音视频流,满足短视频或直播应用场景。

应用场景

场景 描述
短视频制作
服务端 API 接口提供数智人短视频制作所需要的包括背景、形象、音色等配置,支持不同视频格式,不同清晰度,异步生成数智人视频文件。
数智人直播
开发者调用服务端 API 创建数智人视频流任务,用文本或语音驱动数智人,以音视频实时流的形式推流至 ZEGO 实时音视频云(RTC),客户端拉流收看直播画面,实现数智人直播。
互动问答
开发者调用服务端 API 创建数智人视频流任务,开发者获取到终端用户提问内容后,用文本或语音驱动数智人回答,以音视频实时流的形式推流至 ZEGO 实时音视频云(RTC),客户端拉流获取数智人回复画面,实现数智人互动。

功能特性

主要功能 功能描述
数智人资产查询
开发者调用服务端 API 查询对应可用的公共/定制的数智人形象、音色等。
支持异步/实时的视频合成方式
支持以文件或音视频流的形式生成视频。
支持不同流媒体格式与清晰度
封装格式:MP4、WebM(支持 Alpha 透明通道)。
视频清晰度:1080P、2K。
语音合成
支持文本转语音能力,支持 SSML标记语言
语言大模型
支持问题输入,通过语言大模型输出 AI 文案。
本篇目录