实时互动 AI Agent

产品简介

下载 SDK 及 Demo

快速开始

快速发起语音通话

实现数字人视频通话

实现数字人实时播报

连接至 ZEGO 文档 MCP 服务

基础功能

客户端

智能体自定义控制

AI主动说话：主动调用 LLM 或 TTS

展示用户和智能体实例状态

获取智能体状态及延迟数据

打断智能体

高级功能

最佳实践

API 参考

在线调试服务端 API

智能体配置管理

智能体实例管理

智能体实例控制

回调

配置 ASR

2026-07-13

功能简介

为了提高不同场景下语音识别（或语音转文字）的识别准确率，可以通过以下方式实现：

选择合适厂商/识别模型：
选择合适语种: 默认腾讯、阿里百炼模型为中文识别，微软为英文识别。
设置识别热词：在特定的场景下，通常存在一些专用词汇，例如角色名、用户名、功能名称等，可以在创建智能体实例时设置临时热词，提高语音识别的准确率。

目前ZEGO支持的ASR厂商及模型如下：

腾讯 ASR：普通版本、大模型版本（包括中英粤+9种方言大模型引擎【大模型版】、普方英大模型引擎【大模型版】等）。详情查看腾讯云-实时语音识别
阿里云百炼:
- Paraformer 系列（普通话、方言、英语及部分小语种，不推荐）、Fun-ASR系列模型（主要支持中文及方言）。详情查看实时语音识别-Fun-ASR/Gummy/Paraformer;
- 千问系列模型：主要适用于中文、英文等多种语言，详情查看实时语音识别-千问
火山大模型流式语音识别模型：适用于中英等语种场景，详情查看火山语音识别大模型
微软 ASR ：详情请查看微软实时语音识别。若需要更多ASR厂商及模型，请联系ZEGO商务。

前提条件

目前腾讯为默认开通并支持的语音识别厂商。若需要阿里百炼、微软、火山等识别厂商，请联系 ZEGO 商务开通。

使用方式

目前可通过4个接口设置 ASR 相关参数：

接口	说明
注册智能体	设置厂商、热词、语种等参数。
创建语音智能体实例创建数字人智能体实例	设置厂商、热词、语种等参数。说明如果不设置，默认会使用注册 Agent 智能体（RegisterAgent）携带的 ASR 参数。
修改智能体实例	注意支持修改热词和语种。其他参数请联系技术支持确认。

ASR 参数说明

参数	类型	是否必选	描述
Vendor	String	否	ASR 供应商，默认为 Tencent： Tencent: 腾讯 AliyunParaformer: 阿里云Paraformer AliyunFunASR：阿里云 FunASR（大模型版本） AliyunQwenASR：阿里云 QwenASR（大模型版本） VolcSeedASR：火山引擎 SeedASR Microsoft: 微软 ASR
~~HotWord~~	String	否	该参数已废弃。请通过 Params 扩展参数设置，具体使用方式参考下面各厂商的热词设置说明。
Params	Object	否	厂商参数，具体使用方式参考下面各厂商的参数设置说明。
~~VADSilenceSegmentation~~	number	否	⚠️ 该参数已废弃。2.12.0 版本起迁移至 VAD 结构下的 VAD.TurnDetectConfig.SilenceSegmentation。用于设置用户说话停顿多少毫秒后，不再将两句话视为一句。范围 [200，2000]，默认为 500。详细说明请参考语音识别断句。
~~PauseInterval~~	number	否	⚠️ 该参数已废弃。2.12.0 版本起迁移至 VAD 结构下的 VAD.TurnDetectConfig.PauseInterval。用于设置用户说话停顿多少毫秒内，将两句话视为一句，即 ASR 多句拼接。范围 [200，2000]。仅当此值大于 SilenceSegmentation，才会开启 ASR 多句拼接。详细说明请参考语音识别断句。

各厂商的 Params 参数说明如下：