logo
当前页

配置 ASR


功能简介

为了提高不同场景下语音识别(或语音转文字)的识别准确率,可以通过以下方式实现:

  • 选择合适厂商/识别模型:支持腾讯 ASR、阿里百炼 Paraformer、百阿里炼 Gummy、微软等
  • 选择合适语种: 默认腾讯、阿里百炼模型为中文识别,微软为英文识别。
  • 设置识别热词:在特定的场景下,通常存在一些专用词汇,例如角色名、用户名、功能名称等,可以在创建智能体实例时设置临时热词,提高语音识别的准确率。

前提条件

目前腾讯为默认开通并支持的语音识别厂商。若需要阿里、微软等识别厂商,请联系 ZEGO 商务开通。

使用方式

在创建实时语音识别任务(StartRealtimeASRTask)时可以通过 ASR 参数设置需要使用的厂商、语种、热词等参数。

ASR 参数说明

参数类型是否必选描述
VendorStringASR 供应商,默认为 Tencent:
  • Tencent: 腾讯
  • AliyunParaformer: 阿里云 Paraformer
  • AliyunGummy: 阿里云 Gummy
  • Microsoft: 微软 ASR
HotWordString该参数已废弃。
请通过 Params 扩展参数设置,具体使用方式参考下面各厂商的热词设置说明。
ParamsObject厂商参数,具体使用方式参考下面各厂商的参数设置说明。
VADSilenceSegmentationnumber用于设置用户说话停顿多少毫秒后,不再将两句话视为一句。范围 [200,2000],默认为 500。详细说明请参考断句识别
PauseIntervalnumber用于设置用户说话停顿多少毫秒内,将两句话视为一句,即 ASR 多句拼接。范围 [200,2000]。仅当此值大于 VADSilenceSegmentation,才会开启 ASR 多句拼接。详细说明请参考断句识别

各厂商的 Params 参数说明如下:

断句识别

判断用户是否说话结束可由 VADSilenceSegmentationPauseInterval 两个参数影响。

场景举例

asr_vad_example.png
配置问答结果
VADSilenceSegmentation = 500ms,
PauseInterval 不填
用户被判断为说了 2 句话:
第1句:今天天气真好啊。我想出去玩
第2句:你呢?
说明
由于400ms < VADSilenceSegmentation 所以前两段记作第1句;800ms > VADSilenceSegmentation所以第三段被记作独立的第 2 句。
VADSilenceSegmentation = 500ms,
PauseInterval = 1000ms
用户被判断为说了 1 句话:
今天天气真好啊。我想出去玩。你呢?
说明
由于400ms < PauseInterval 所以前两段被记作1句话, 800ms < PauseInterval 所以第三段跟前一段被合并为同一句,所以最终结果为1句话。

最佳实践配置

说明
若您不知道哪一个效果更好,推荐使用场景2配置。
场景VADSilenceSegmentationPauseInterval
场景1:用户说话短频快。例如陪伴场景500ms不填
场景2:用户一次内容有长有短,且对延迟敏感。例如客服场景500ms1000~1500ms
场景3:用户说话通常较长,延迟不太敏感1000ms不填

Previous

快速接入

Next

调用方式

当前页

返回到顶部