定价
概述
所属产品 | 费用组成 | 服务属性 | 定价说明 |
---|---|---|---|
实时互动 AI Agent | AI Agent处理费用 | 基础服务 | 语音智能体实例:9元/千分钟 数字人智能体实例:205元/千分钟(含一路价值 98 元的 1080P 的 RTC 实时音视频费用) |
ASR(语音识别/语音转文本) | 基础服务 | 3元/小时 说明 可支持多厂商,请联系ZEGO商务 | |
TTS(语音合成/文本转语音)费用 | 增值服务 | 不同厂商费用不同 | |
RTC(实时音视频) | 高音质纯音频 | 基础服务 | 7元/千分钟 参考实时音视频价格说明 |
ZIM(即时通讯) | 版本费用 | 增值服务 | 体验版、专业版、旗舰版,具体请参考ZIM 的计费 |
数字人 API | 数字人制作费用 | 增值服务 | 请联系ZEGO商务 |
若仅需与AI实现IM图文语音消息互动,不需要接入实时互动AI Agent产品,结合即时通讯产品即可实现。即时通讯产品价格请查看:ZIM 的计费,相关方案请查看:实现与 AI 进行 IM 聊天并发起语音通话。

详细服务定价
AI Agent 处理费用
注意
AI Agent 实例默认为 10 个并发,若希望增加请联系技术支持。
在与AI的实时互动过程中,产生的基础平台服务费用,包括产生相应的算力、出口带宽等成本。当前共两种互动形式:
- 与AI纯语音互动 - 语音智能体实例:用户输出语音,AI智能体输出语音。
- AI数字人实时通话 - 数字人智能体实例:用户输出语音,AI智能体输出包含数字人的最高 1080P 的视频通话。
服务细项 | 服务细项类型 | 计费模式 | 档位 | 计费定价 |
---|---|---|---|---|
语音智能体实例处理时长 | 基础服务 | 使用时长(元/千分钟) 语音智能体实例的时长。“创建语音智能体实例”开始计时,到“销毁智能体实例”结束计时。 | 不区分 | 9 |
数字人智能体实例处理时长 | 基础服务 | 使用时长(元/千分钟) 数字人智能体智能体实例的时长。“创建数字人智能体实例”开始计时,到“销毁智能体实例”结束计时。包含并赠送一路最高1080P数字人视频费用。 | 不区分 | 205 |
ASR(语音识别)
说明
同时支持阿里云百炼 Paraformer 系列、Gummy 系列模型,以及微软 ASR 等模型,请联系 ZEGO 商务开通相关服务并获取定价。
服务细项 | 服务细项类型 | 计费模式 | 档位 | 计费定价 | 备注 |
---|---|---|---|---|---|
ASR | 基础服务 | 使用时长(元/小时) 调用服务的时长累计,按照小时粒度计算。 | 不区分 | 3 |
TTS(文本转语音)
支持火山引擎、阿里云、MiniMax 等厂商的文本转语音能力,可联系ZEGO商务购买,也可自行购买。具体价格请查看各供应商官网。
服务提供商 | TTS 服务 | 计费文档 |
---|---|---|
火山引擎 | 大模型语音合成 API | 火山引擎 TTS 服务计费 中 “大模型语音合成” 和 “大模型声音复刻” 相关内容。 |
阿里云 | 语音合成 | 大模型服务平台百炼 - 模型列表 - 语音合成(文本转语音) |
MiniMax | 语音模型 - T2A v2 | MiniMax 大模型服务平台计费 - 语音大模型 中 “T2A v2” 和 “voice_clone(快速复刻)” 相关内容 。 |
计费示例
与 AI 的语音互动
一个语音房内,一个 AI 智能体与一个用户语音互动 10 分钟。其中用户需要识别 5 分钟时长,TTS 的输入字符数 0.1 万字符,使用 MiniMax - speech-02-turbo(2元/万字符)。不需要使用 ZIM 做历史记录存储。
- 实时互动 AI Agent:
- 语音智能体实例处理时长:9元/千分钟 * 10分钟 = 0.09元
- ASR(语音识别/语音转文本):5分钟 * 3元/小时 = 0.25元
- TTS(语音合成/文本转语音):0.1万字符 * 2元/万字符 = 0.2元
- RTC(实时音视频)费用:
- 用户侧语音流:7元/千分钟 * 10分钟 = 0.07元
- 语音智能体实例侧语音流:7元/千分钟 * 10分钟 = 0.07元
- ZIM(即时通讯)费用:0。 不需要开通并付费。
与 AI 数字人的实时互动
一个视频房内,一个 AI 数字人智能体与一个用户互动 10 分钟。其中用户需要识别 5 分钟时长,TTS 的输入字符数 0.1 万字符,使用 MiniMax - speech-02-turbo(2元/万字符)。需要 ZIM 存储历史记录,使用体验版。
- 实时互动 AI Agent:
- 数字人智能体实例处理时长:205元/千分钟 * 10分钟 = 2.05元
- ASR(语音识别/语音转文本):5分钟 * 3元/小时= 0.25元
- TTS(语音合成/文本转语音):0.1万字符 * 2元/万字符 = 0.2元
- RTC(实时音视频)费用:
- 用户侧:7元/千分钟 * 10分钟= 0.07元
- 数字人智能体实例侧 1080P 视频流:96元/千分钟 * 10分钟 = 0.96元(免费,包含在数字人智能体实例处理时长中)
- ZIM(即时通讯)费用:0元。
- 数字人 API:以商务沟通为准。