云端实时语音识别

产品简介

快速开始

最佳实践

1v1 实时翻译字幕

基础功能

API 参考

在线调试服务端 API

POST

开启云端实时语音识别

POST

停止云端实时语音识别

POST

添加识别流

POST

删除识别流

回调

异常事件错误码

配置翻译

2026-07-13

功能介绍

在实时语音识别（ASR）过程中，您可以开启翻译功能，将识别到的音频内容实时翻译成目标语言。

该功能支持以下两种主要的配置模式：
- 房间维度翻译：房间内所有流共用一套翻译配置。
- 流维度翻译：为房间内不同的流设置个性化的翻译配置（如不同的目标语言）。
目前支持的翻译模型包括：doubao-seed-translation、Qwen-MT 等。对应不同模型支持的翻译语种，请分别参考对应的模型的官方文档。
支持获取翻译结果的方式：
- 服务端回调获取翻译结果。
- 实时音视频房间信令（ZEGO Express SDK）回调。

核心参数配置

创建实时语音识别任务（StartRealtimeASRTask）时配置参数。

参数	类型	是否必选	描述
`RoomId`	String	是	RTC 房间 Id
`RecognitionRange`	Int	否	识别返回。0: 整个房间，1: 指定 StreamList
`StreamList`	array of object	否	需要识别的流列表，RecognitionRange 为 1 时生效。
`EnableTranslation`	Bool	否	是否开启翻译
`Translation`	Object	否	翻译 LLM 配置项
`SubtitleType`	Int	否	字幕通过房间信令下发类型，默认值为 0： 0: 不下发 1: 仅下发识别结果（如用户说中文"你好"，则下发"你好"） 2: 仅下发翻译结果（如用户说中文"你好"，则下发翻译后的"Hello"） 3: 同时下发识别结果和翻译结果（如用户说中文"你好"，则同时下发"你好"和"Hello"）若需要客户端UI展示字幕，则推荐配置为 `1`、`2` 或 `3`

使用示例

前提条件

使用 ZEGO 云端实时语音识别支持的翻译模型
已经自行开通翻译服务，并获取了模型的 API Key。

开启带翻译的识别任务，并在客户端展示翻译结果

获取翻译结果

通过服务端获取翻译结果（非流式）

参考接受回调文档，获取 Event 为 TranslationResult 的 Data 结果.

（可选）客户端展示字幕

显示翻译字幕，请参考展示字幕文档。

当前页

核心参数配置

开启带翻译的识别任务，并在客户端展示翻译结果

获取翻译结果

通过服务端获取翻译结果（非流式）

（可选）客户端展示字幕

返回到顶部