配置 ASR
功能简介
为了提高不同场景下语音识别(或语音转文字)的识别准确率,可以通过以下方式实现:
- 选择合适厂商/识别模型:支持腾讯 ASR、阿里百炼 Paraformer、百阿里炼 Gummy、微软等
- 选择合适语种: 默认腾讯、阿里百炼模型为中文识别,微软为英文识别。
- 设置识别热词:在特定的场景下,通常存在一些专用词汇,例如角色名、用户名、功能名称等,可以在创建智能体实例时设置临时热词,提高语音识别的准确率。
前提条件
目前腾讯为默认开通并支持的语音识别厂商。若需要阿里、微软等识别厂商,请联系 ZEGO 商务开通。
使用方式
在创建实时语音识别任务(StartRealtimeASRTask)时可以通过 ASR 参数设置需要使用的厂商、语种、热词等参数。
ASR 参数说明
| 参数 | 类型 | 是否必选 | 描述 |
|---|---|---|---|
| Vendor | String | 否 | ASR 供应商,默认为 Tencent:
|
| String | 否 | 该参数已废弃。 请通过 Params 扩展参数设置,具体使用方式参考下面各厂商的热词设置说明。 | |
| Params | Object | 否 | 厂商参数,具体使用方式参考下面各厂商的参数设置说明。 |
| VADSilenceSegmentation | number | 否 | 用于设置用户说话停顿多少毫秒后,不再将两句话视为一句。范围 [200,2000],默认为 500。详细说明请参考断句识别。 |
| PauseInterval | number | 否 | 用于设置用户说话停顿多少毫秒内,将两句话视为一句,即 ASR 多句拼接。范围 [200,2000]。仅当此值大于 VADSilenceSegmentation,才会开启 ASR 多句拼接。详细说明请参考断句识别。 |
各厂商的 Params 参数说明如下:
断句识别
判断用户是否说话结束可由 VADSilenceSegmentation 和 PauseInterval 两个参数影响。
场景举例

| 配置 | 问答结果 |
|---|---|
| VADSilenceSegmentation = 500ms, PauseInterval 不填 | 用户被判断为说了 2 句话: 第1句:今天天气真好啊。我想出去玩 第2句:你呢? 说明 由于400ms < VADSilenceSegmentation 所以前两段记作第1句;800ms > VADSilenceSegmentation所以第三段被记作独立的第 2 句。 |
| VADSilenceSegmentation = 500ms, PauseInterval = 1000ms | 用户被判断为说了 1 句话: 今天天气真好啊。我想出去玩。你呢? 说明 由于400ms < PauseInterval 所以前两段被记作1句话, 800ms < PauseInterval 所以第三段跟前一段被合并为同一句,所以最终结果为1句话。 |
最佳实践配置
说明
若您不知道哪一个效果更好,推荐使用场景2配置。
| 场景 | VADSilenceSegmentation | PauseInterval |
|---|---|---|
| 场景1:用户说话短频快。例如陪伴场景 | 500ms | 不填 |
| 场景2:用户一次内容有长有短,且对延迟敏感。例如客服场景 | 500ms | 1000~1500ms |
| 场景3:用户说话通常较长,延迟不太敏感 | 1000ms | 不填 |

