配置 ASR
功能简介
为了提高不同场景下语音识别(或语音转文字)的识别准确率,可以通过以下方式实现:
- 选择合适厂商/识别模型:支持腾讯 ASR、阿里百炼 Paraformer、百阿里炼 Gummy、微软等
- 选择合适语种: 默认腾讯、阿里百炼模型为中文识别,微软为英文识别。
- 设置识别热词:在特定的场景下,通常存在一些专用词汇,例如角色名、用户名、功能名称等,可以在创建智能体实例时设置临时热词,提高语音识别的准确率。
前提条件
目前腾讯为默认开通并支持的语音识别厂商。若需要阿里、微软等识别厂商,请联系 ZEGO 商务开通。
使用方式
目前可通过4个接口设置 ASR 相关参数:
接口 | 说明 |
---|---|
注册智能体 | 设置厂商、热词、语种等参数。 |
创建语音智能体实例 创建数字人智能体实例 | 设置厂商、热词、语种等参数。 说明 如果不设置,默认会使用注册 Agent 智能体(RegisterAgent)携带的 ASR 参数。 |
修改智能体实例 | 注意 支持修改热词和语种。其他参数请联系技术支持确认。 |
ASR 参数说明
参数 | 类型 | 是否必选 | 描述 |
---|---|---|---|
Vendor | String | 否 | ASR 供应商,默认为 Tencent:
|
String | 否 | 该参数已废弃。 请通过 Params 扩展参数设置,具体使用方式参考下面各厂商的热词设置说明。 | |
Params | Object | 否 | 厂商参数,具体使用方式参考下面各厂商的参数设置说明。 |
VADSilenceSegmentation | number | 否 | 用于设置用户说话停顿多少毫秒后,不再将两句话视为一句。范围 [200,2000],默认为 500。详细说明请参考语音识别断句。 |
PauseInterval | number | 否 | 用于设置用户说话停顿多少毫秒内,将两句话视为一句,即 ASR 多句拼接。范围 [200,2000]。仅当此值大于 VADSilenceSegmentation,才会开启 ASR 多句拼接。详细说明请参考语音识别断句。 |
各厂商的 Params 参数说明如下: