当前页

配置 ASR

2026-05-13

功能简介

为了提高不同场景下语音识别(或语音转文字)的识别准确率,可以通过以下方式实现:

  • 选择合适厂商/识别模型:
  • 选择合适语种: 默认腾讯、阿里百炼模型为中文识别,微软为英文识别。
  • 设置识别热词:在特定的场景下,通常存在一些专用词汇,例如角色名、用户名、功能名称等,可以在创建智能体实例时设置临时热词,提高语音识别的准确率。

目前ZEGO支持的ASR厂商及模型如下:

  • 腾讯 ASR:普通版本、大模型版本(包括中英粤+9种方言大模型引擎【大模型版】、普方英大模型引擎【大模型版】等)。详情查看腾讯云-实时语音识别
  • 阿里云百炼:
    • Gummy 系列模型(主要支持中英日等语言)、Fun-ASR系列模型(主要支持中文及方言)、Paraformer 系列(普通话、方言、英语及部分小语种,不推荐)。详情查看实时语音识别-Fun-ASR/Gummy/Paraformer;
    • 千问系列模型:主要适用于中文、英文等多种语言,详情查看实时语音识别-千问
  • 火山大模型流式语音识别模型:适用于中英等语种场景,详情查看火山语音识别大模型
  • 微软 ASR :详情请查看微软实时语音识别。 若需要更多ASR厂商及模型,请联系ZEGO商务。

前提条件

目前腾讯为默认开通并支持的语音识别厂商。若需要阿里百炼、微软、火山等识别厂商,请联系 ZEGO 商务开通。

使用方式

目前可通过4个接口设置 ASR 相关参数:

接口说明
注册智能体设置厂商、热词、语种等参数。
创建语音智能体实例
创建数字人智能体实例
设置厂商、热词、语种等参数。
说明
如果不设置,默认会使用注册 Agent 智能体(RegisterAgent)携带的 ASR 参数。
修改智能体实例
注意
支持修改热词和语种。其他参数请联系技术支持确认。

ASR 参数说明

参数类型是否必选描述
VendorStringASR 供应商,默认为 Tencent:
  • Tencent: 腾讯
  • AliyunParaformer: 阿里云Paraformer
  • AliyunGummy: 阿里云Gummy
  • Microsoft: 微软 ASR
  • AliyunFunASR:阿里云 FunASR(大模型版本)
  • AliyunQwenASR:阿里云 QwenASR(大模型版本)
  • VolcSeedASR:火山引擎 SeedASR
HotWordString该参数已废弃。
请通过 Params 扩展参数设置,具体使用方式参考下面各厂商的热词设置说明。
ParamsObject厂商参数,具体使用方式参考下面各厂商的参数设置说明。
VADSilenceSegmentationnumber⚠️ 该参数已废弃。2.12.0 版本起迁移至 VAD 结构下的 VAD.TurnDetectConfig.SilenceSegmentation
用于设置用户说话停顿多少毫秒后,不再将两句话视为一句。范围 [200,2000],默认为 500。详细说明请参考语音识别断句
PauseIntervalnumber⚠️ 该参数已废弃。2.12.0 版本起迁移至 VAD 结构下的 VAD.TurnDetectConfig.PauseInterval
用于设置用户说话停顿多少毫秒内,将两句话视为一句,即 ASR 多句拼接。范围 [200,2000]。仅当此值大于 SilenceSegmentation,才会开启 ASR 多句拼接。详细说明请参考语音识别断句

各厂商的 Params 参数说明如下:

上一篇

配置 LLM

下一篇

配置 TTS