云端实时语音识别

产品简介

快速开始

最佳实践

1v1 实时翻译字幕

基础功能

API 参考

在线调试服务端 API

POST

开启云端实时语音识别

POST

停止云端实时语音识别

POST

添加识别流

POST

删除识别流

回调

异常事件错误码

发布日志

2026-04-09

2026-04-07

v2.3.0

支持超出 ASR 流并发兜底并计费。开启该能力后，当实际并发超过购买的并发数量时，系统会自动启用备份 ASR 服务进行兜底，确保业务不中断。超额部分按日计费，帮助开发者降低决策成本。开启后最大并发可达已开通月并发量的 2 倍（例如已开通月并发 50 并发，最多可突破至 100 并发）。

注意
请联系 ZEGO 商务开通。
支持动态增删 ASR 识别流。语音识别任务运行过程中，可以通过 API 动态增加或删除需要识别的流，无需重建任务。增加流 API：指定 taskID 添加新流及 ASR 相关参数；删除流 API：指定 taskID 删除正在识别的流。适用于会议中途有人加入/离开、直播多路信号动态切换等场景。

2026-01-21

v2.2.0

支持在完成语音识别的基础上实现翻译能力。

目前支持翻译的粒度：房间级别、流级别
目前已支持的翻译模型包括 doubao-seed-translation、Qwen-MT 等注意：这些翻译模型的鉴权信息请自行购买后通过创建任务。详细请查看配置翻译

支持识别结果和翻译结果通过 RTC 房间信令流式字幕下发。通过创建识别任务时配置 SubtitleType 字段，即可从 ZEGO Express SDK 的 RTC 房间消息获取到流式识别结果或翻译结果。详细可查看显示字幕

2025-12-04

v2.1.0

支持创建语音识别任务时，指定识别某些流。可实现房间内仅识别某些指定用户的音频流。

2025-11-12

v2.0.0

支持单 RTC 房间无上限用户数量进行语音识别。
新增阿里云百炼语音识别能力。支持中文（普通话 / 方言）、粤语、英语、日语、韩语等，含 2 类模型（需联系 ZEGO 商务开通，配置 vendor 选择模型）：
- Paraformer：适配噪音环境、中文方言场景
- Gummy：适配多语种混合场景，及德语、法语、俄语、意大利语、西班牙语场景
详情请参考配置 ASR。
新增微软实时语音识别能力。支持英语、法语、德语、西班牙语等一系列海外语言。（需联系 ZEGO 商务开通）

详情请参考配置 ASR。

2025-07-25

v1.0.0

全新发布。针对 RTC 房间内的所有音频流进行实时语音识别，将语音转为文字，可实现在线会议实时字幕、多语种语聊房互动、全球直播字幕等场景。

识别延迟600ms左右
识别准确度提升40%+
相较于传统识别方案，成本降低50%+

当前页

返回到顶部