logo
当前页

配置 ASR


功能简介

为了提高不同场景下语音识别(或语音转文字)的识别准确率,可以通过以下方式实现:

  • 选择合适厂商/识别模型:支持腾讯 ASR、阿里百炼 Paraformer、百阿里炼 Gummy、微软等
  • 选择合适语种: 默认腾讯、阿里百炼模型为中文识别,微软为英文识别。
  • 设置识别热词:在特定的场景下,通常存在一些专用词汇,例如角色名、用户名、功能名称等,可以在创建智能体实例时设置临时热词,提高语音识别的准确率。

前提条件

目前腾讯为默认开通并支持的语音识别厂商。若需要阿里、微软等识别厂商,请联系 ZEGO 商务开通。

使用方式

目前可通过4个接口设置 ASR 相关参数:

接口说明
注册智能体设置厂商、热词、语种等参数。
创建语音智能体实例
创建数字人智能体实例
设置厂商、热词、语种等参数。
说明
如果不设置,默认会使用注册 Agent 智能体(RegisterAgent)携带的 ASR 参数。
修改智能体实例
注意
支持修改热词和语种。其他参数请联系技术支持确认。

ASR 参数说明

参数类型是否必选描述
VendorStringASR 供应商,默认为 Tencent:
  • Tencent: 腾讯
  • AliyunParaformer: 阿里云 Paraformer
  • AliyunGummy: 阿里云 Gummy
  • Microsoft: 微软 ASR
HotWordString该参数已废弃。
请通过 Params 扩展参数设置,具体使用方式参考下面各厂商的热词设置说明。
ParamsObject厂商参数,具体使用方式参考下面各厂商的参数设置说明。
VADSilenceSegmentationnumber用于设置用户说话停顿多少毫秒后,不再将两句话视为一句。范围 [200,2000],默认为 500。详细说明请参考语音识别断句
PauseIntervalnumber用于设置用户说话停顿多少毫秒内,将两句话视为一句,即 ASR 多句拼接。范围 [200,2000]。仅当此值大于 VADSilenceSegmentation,才会开启 ASR 多句拼接。详细说明请参考语音识别断句

各厂商的 Params 参数说明如下:

Previous

配置 LLM

Next

配置 TTS

当前页

返回到顶部