发布日志

2026-07-11

V2

2026-06-26

服务端 v2.13.0

新增功能

功能项	功能描述	相关文档
支持声纹识别能力（内测）	新增声纹识别功能，支持通过声音识别用户身份。目前为 Beta 版本，能基本不受异性声音影响。适用于个性化服务场景，仅识别当前用户声音提供个性化对话体验。注意：当前内测阶段，请联系 ZEGO 商务开通使用。
通过客户端 Express 信令直接控制智能体实例	通过 Express SDK 房间信令发起智能体实例控制，无需服务端中转。支持能力：主动调用 TTS（sendAgentInstanceTTS）、主动调用 LLM（sendAgentInstanceLLM）、打断智能体实例（InterruptAgentInstance）、智能体开始聆听（StartListening）、智能体结束聆听（StopListening）。适用于低延迟控制场景和客户端直连场景。	智能体自定义控制
支持智能体实例更新互动用户	通过 updateAgentInstance 接口修改 AI 拉用户流的 `streamId`，动态更新智能体实例所互动的用户侧音视频流。适用于直播间/语聊房场景，AI 作为虚拟主播，从评论区互动到邀请用户上麦时切换 `streamId`。
支持通过自然语言描述/语音指令控制 TTS 效果	支持 TTS 精细控制，可通过自然语言描述或语音指令调整语气，如"用特别特别痛心的语气说话"、"用那种互怼的口气说话"。支持火山 TTS2.0（ByteDanceV3、ByteDanceFlowing）的 `context_texts` 参数，以及阿里云 CosyVoice 的 `instruction` 参数。	控制智能体语音情绪
海外节点支持火山 ASR2.0	支持火山 ASR2.0 柔佛节点，适用于海外客户场景（如 toptop 等客户反馈火山俄语识别准确率较好）。若使用请联系 ZEGO 商务开通。	配置 ASR
创建智能体实例支持 RTC 推流附加信息	CreateAgentInstance 接口的 RTC 参数增加"流附加信息" `extrainfo`，agent 推流时设置，开发者可通过 RTC"流创建回调"获取 `extra_info`。适用于语音房场景携带 sessionId 记录会话，或服务端监听回调进行校验逻辑。

改进优化

低延迟模式字准率优化：优化低延迟模式下的字幕准确率，提升语音识别体验。
Exception 回调新增 TTS logid：便于开发者排查 TTS 相关问题。

2026-05-09

服务端 v2.12.0

新增功能

功能项	功能描述	相关文档
新增多家 ASR 厂商和模型	新增火山大模型 ASR、阿里云百炼千问 ASR、阿里云百炼 Fun-ASR。可以通过 ASR Vendor 支持 Tencent、AliyunParaformer、AliyunGummy、ByteDance 等厂商配置。适用于中文方言识别、多语种识别场景。具体包括：腾讯 ASR：大模型版本，包括中英粤+9种方言大模型引擎【大模型版】、普方英大模型引擎【大模型版】等。详情查看腾讯云-实时语音识别。阿里云百炼 Fun-ASR 系列模型：主要支持中文及方言。详情查看实时语音识别-Fun-ASR/Gummy/Paraformer。阿里云百炼千问系列模型：主要适用于中文、英文等多种语言。详情查看实时语音识别-千问。火山大模型流式语音识别模型：适用于中英等语种场景。详情查看火山语音识别大模型。	配置 ASR
新增新加坡节点	新增新加坡集群，默认配置新加坡节点 ASR、LLM、TTS、数字人等服务。适用于海外客户降低延迟、多区域部署、隐私合规相关需求场景。新加坡节点开通及定价请联系ZEGO商务。	-
新增 Round 机制	新增 Round 机制，明确 AI 某一轮对话结束时机。Round 是 AI Agent 交互链路的唯一标识符，服务端为每次交互生成升序序号，不会重复。每次用户说话或 API 调用生成一个 Round 值，后续所有回调（ASR、LLM、TTS、状态变化、打断）都携带 Round，业务方可准确追踪完整对话链路。适用于 AI 陪聊、语聊房、数字人、智能客服等需要追踪完整对话链路的场景，尤其适合处理打断、排队等复杂情况。	Round 机制与回调追踪

2026-04-01

服务端 v2.11.0

新增功能

功能项	功能描述	相关文档
支持 SendAgentInstanceLLM/SendAgentInstanceTTS 设置 high 优先级强制播报	当 SendAgentInstanceLLM/SendAgentInstanceTTS 设置 high 时，无视用户是否正在说话、AI 是否正在说话，必然可以播报本次内容。适用于强制播报关键流程或节点，如「时间到，本次通话结束」等场景。	主动调用 LLM 和 TTS

改进优化

实时音视频（RTC）拉流性能优化：优化服务端/Android/iOS 拉流性能，减少语音延迟 50～100ms。
群语音接口耗时优化：优化加入/离开群语音实例接口响应速度，提升体验。
数字人 API 错误码完善：完善数字人 API 新增错误码说明，便于开发者排查问题。

2026-02-05

服务端 v2.10.0

新增功能

功能项	功能描述	相关文档
支持针对用户的语音进行情绪识别	开启该能力后，AI Agent 会根据用户的原始音频分析其中的情绪，例如恐惧、开心、愤怒等，并将识别结果添加到本次请求 LLM 的用户提示词中，从而让 AI 更好的理解用户情绪。说明该能力内测中，可以通过体验 demo 进行体验，若想接入本能力，请联系 ZEGO 商务。	-
支持对讲机模式互动能力	在创建智能体实例时，可以指定本次互动的互动方式为对讲机模式。在该模式下，AI Agent 不会基于用户静音停顿间隔等方式自动判断用户是否开始和结束说话，而是根据开始说话、结束说话两个 API 来判断。	-
支持数字人智能体实例边说话边做对应动作	数字人边说「你好」边做出打招呼的动作等。该功能可以在体验 demo 中体验，若希望接入，请联系 ZEGO 商务。	-
支持 AI 播报到关键词或关键节点时通知业务服务	基于本能力，可以实现用户真正听到某些节点或关键信息时，处理特殊的业务逻辑。例如 AI 数字人智能伴学场景中，数字人老师回应学生：「你说的对，老师给你点赞。」当 AI 开始播报「点赞」时，数字人做对应的点赞动作。具体请查看相关文档。	AI 播报时获取 MetaInfo
支持优雅销毁智能体实例能力	销毁智能体实例时，可以配置是否等 AI 播报完本次内容之后再销毁，防止 AI 正在说话时就销毁智能体实例造成的体验问题。	-
支持微信小程序	支持微信小程序接入 AI Agent 并与 AI 进行语音通话的能力。	-

改进优化

优化误打断逻辑，减少误打断情况。

问题修复

修复在数字人实例场景下可能出现打断模式异常的情况。

2025-12-25

服务端 v2.9.0

新增功能

功能项	功能描述	相关文档
TTS 支持过滤掉特定字符串	例如可过滤掉“*”、“-”等特定字符串，不对这些字符串进行文本转语音。	配置 TTS
通过 Responses API 调用豆包 Seed 系列模型时自动开启缓存能力	开启缓存后可实现更低的互动延迟及互动成本。说明若希望使用本能力，请联系 ZEGO 技术支持。

改进优化

优化语音实例、数字人实例的互动延迟，降低约 100ms 。

问题修复

修复 UserAudioData 回调不可用问题。

2025-12-12

服务端 v2.8.5

新增功能

功能项	功能描述	相关文档
支持调整语音活动检测 VAD 灵敏度	用以判断用户是否真正开始说话，从而触发语音识别、判断是否打断 AI 说话。目前支持三种模式：低、中（默认）、高，同时支持自定义修改细节参数，用以更好的适配业务场景。	语音打断灵敏度调整

问题修复

修复请求 LLM 时会默认携带 max_tokens 参数问题。
修复线上部分可能出现的服务体验问题。

2025-12-09

服务端 v2.8.0

新增功能

功能项	功能描述	相关文档
支持多模态大模型	支持符合 OpenAI 标准的文字输入语音输出的多模态大模型，例如 gpt-4o-audio、qwen3-omni-flash 等模型。详情请参考配置 LLM。	配置 LLM
支持 OpenAI Responses API 标准	支持调用符合 OpenAI Responses API 标准的大语言模型或智能体，例如可调用豆包 seed 系列模型、百炼智能体等。详情请参考配置 LLM。	配置 LLM
支持火山单向流式TTS的情绪标签	支持火山单向流式 TTS 的情绪标签，从而实现 AI 语音更好的情绪展现，例如愤怒、悲伤、恐惧等。实现效果可参考豆包语音合成大模型中的多情感音色。说明若希望使用本能力，请联系 ZEGO 技术支持。
支持服务端 API 实现插入若干条上下文消息	-	AI短期记忆（智能体上下文）管理

改进优化

优化用户结束说话判断逻辑，提供更好的互动体验。
服务端回调新增 AgentId、Name 等注册智能体时的信息。可基于此实现不同业务等智能体区分。
优化智能体状态回调。废弃原有“智能体说话行为AgentSpeakAction”回调事件（智能体开始说话、智能体结束说话），新增“智能体实例状态AgentInstanceStatus”回调事件，包含IDLE（空闲）、LISTENING（正在听）、THINKING（正在想）、SPEAKING（正在说）状态，对齐查询智能体状态API信息。可实现更精确的智能体对话时的状态相关UI展示，以及更好的业务逻辑控制。详情请查看展示用户和智能体实例状态。

2025-11-07

服务端 v2.7.0

新增功能

功能项	功能描述	相关文档
支持语音智能体实例仅输出文本，不进行TTS（文本转语音）	适用于扩展智能体与用户实时互动时的对话方式，可同时与用户语音和文字互动，提升互动的真实感。	创建语音智能体实例
支持使用自定义 LLM 时，可配置透传自定义业务信息	创建智能体实例时，配置 AgentExtraInfo ，则 AI Agent 每次调用 LLM 时会携带 AgentExtraInfo 信息。例如每次发起通话（创建智能体实例），携带用户地址、业务类型等信息，从而实现不同的LLM或Agent调用。	注册智能体配置 LLM -> 使用自定义 LLM

改进优化

创建语音智能体实例/创建数字人智能体实例接口的 MessageHistory.WindowSize 和 MessageHistory.ZIM.LoadMessageCount 上限调整为 500。
优化自然语音打断机制，提升语音打断准确率，尤其提高用户声音较小或在嘈杂环境下的准确率。
TTS（文本转语音），支持火山语音合成大模型-单向流式websocket-V3，降低耗时约70ms左右。

2025-10-29

服务端 v2.6.6

新增功能

功能项	功能描述	相关文档
AdvancedConfig 新增 MaxIdleTime 字段	支持自定义配置智能体实例的自动销毁时间。即创建实例的用户（UserId）若超过 MaxIdleTime 不在 RTC 房间内，则智能体实例会自动销毁，并触发 Event 为 AgentInstanceDeleted 的回调，Data.Code 为 1202。MaxIdleTime 默认 120s，取值范围 [10, 1800]。	创建智能体实例创建数字人智能体实例

2025-09-28

服务端 v2.6.0

新增功能

功能项	功能描述	相关文档
sendAgentInstanceLLM及sendAgentInstanceTTS接口支持设置优先级	支持自定义调用LLM（sendAgentInstanceLLM）、自定义调用TTS（sendAgentInstanceTTS）的任务优先级，从而实现AI主动说话（播报）在不同场景下的行为。例如AI强制播报部分内容，或AI排队播报某些内容。	AI主动说话：自定义调用LLM/TTS、sendAgentInstanceLLM、sendAgentInstanceTTS

改进优化

优化整体语音互动及数字人互动体验。

2025-09-08

服务端 v2.5.10

新增功能

功能项	功能描述	相关文档
支持无上限用户数量与 AI 同时互动	AI可获悉群内所有用户基本信息及说话内容，并针对用户选择性回复。适用于多人语聊房、多人会议、小班课等场景下，AI作为房主或主持人等多用户与AI互动的场景。说明能力内测中，请联系ZEGO技术支持。	-
新增阿里云百炼语音识别能力	支持中文（普通话 / 方言）、粤语、英语、日语、韩语等，含 2 类模型（需联系 ZEGO 商务开通，配置vendor选择模型）： Paraformer：适配噪音环境、中文方言场景 Gummy：适配多语种混合场景，及德语、法语、俄语、意大利语、西班牙语场景	创建智能体实例创建数字人智能体实例
SendAgentInstanceLLM 新增控制项	支持控制输入 / 回答是否纳入 LLM 历史上下文、下发字幕、持久化存储消息记录；接口新增AddQuestionToHistory（控制输入）、AddAnswerToHistory（控制输出）字段。	主动调用 LLM 和 TTS 主动调用 TTS
支持轮次或句粒度设置TTS的情绪效果，从而实现更好的情绪控制，增强拟人效果	1. 轮次粒度控制：第一轮AI回答：“今天天气真好呀！”，“开心”情绪；用户回复“我好难过。”，第二轮AI回答：“听到你真么说，我也很难过。”，并使用“悲伤”情绪。 2. 句粒度控制：例如大语言模型LLM本轮回答为“今天天气真好呀！但是我却遇到了不开心的事情。”，可以设置前半句为“开心”情绪，后半句为“悲伤”情绪。说明能力内测中，请联系ZEGO技术支持。	-

改进优化

优化数字人智能体实例相关错误码。包括410001025～410001032等错误码。详情请查看返回码 > 业务返回码。
数字人智能体实例接入体验提升：优化实现数字人视频通话文档及示例代码，提升接入便捷性。
回调开关新增配置：支持关闭智能体创建及删除相关回调。
智能体状态准确性优化：优化思考中、说话中状态的准确性，可通过查询智能体状态 API 获取。
ASR、TTS 连接数优化：降低使用成本。

2025-07-31

服务端 v2.4.15

新增功能

功能项	功能描述	相关文档
WindowSize、LoadMessageCount 上限调整为 200	创建智能体实例/创建数字人智能体实例接口的 `MessageHistory.WindowSize` 和 `MessageHistory.ZIM.LoadMessageCount` 上限调整为 200。	创建智能体实例创建数字人智能体实例
TTS 新增 TerminatorText 字段	注册/修改智能体、创建/修改智能体实例接口的 `TTS` 字段新增 `TerminatorText` 字段。该字段可用于设置 TTS 的终止文本。若输入 TTS 的文本中出现匹配 TerminatorText 字符串的内容，则本轮 TTS 从 TerminatorText 字符串（包含）开始的内容将不再进行语音合成。

改进优化

优化单向流式 TTS 的断句逻辑。

2025-06-26

服务端 v2.4.0

新增功能

功能项	功能描述	相关文档
支持数字人视频通话	支持在数字人 PaaS 服务创建数字人形象，通过创建数字人智能体实例，实现与数字人的超低延迟实时视频互动。数字人驱动延迟 500ms 内，互动端到端延迟 2s 内（用户说话结束至看到 AI 数字人视频）。超清数字人视频，真实 1080P 效果。面部表情真实自然。嘴部及面部表情自然。唇形准确。支持所有语种，尤其中英文，口型准确。	实现数字人视频通话
多智能体多音色输出	支持与多智能体互动时，主动调用 TTS 支持多音色输出	主动调用 TTS

改进优化

更新 MiniMax TTS (文本转语音)的默认 model 为 speech-02-turbo ，并优化其延迟到约 300ms。

2025-06-19

服务端 v2.3.0

新增功能

功能项	功能描述	相关文档
支持在实例销毁时，获取本次语音对话的平均延迟信息	延迟信息包括：大语言模型 LLM 相关耗时：LLM 首 token 耗时（毫秒）、LLM 输出速度（tokens/秒）文字转语音TTS相关耗时：TTS音频首帧耗时（毫秒）服务端总耗时（毫秒）	获取智能体服务状态&延迟数据
支持阿里 CosyVoice 的 TTS 的双向流式	通过创建智能体时配置 Vendor 为阿里 CosyVoice ，并配置支持的音色，即可实现基于 CosyVoice 的 AI 实时语音通话。	-
支持获取智能体实例的创建成功、销毁回调	可搭配查询智能体实例状态、服务端异常回调、智能体被打断回调等，实现智能体全生命周期流程的管理	获取智能体服务状态&延迟数据

改进优化

接入测试期间，无需单独申请相关账号及鉴权即可使用部分 ZEGO 支持的大语言模型（豆包、MiniMax、通义千问、阶跃星辰等）及TTS厂商（MinMax、火山、阿里CosyVoice）提供的服务。详细请参考快速开始。
更新支持 MiniMax TTS 的 WebSocket 的单向流式，进一步优化延迟及音色效果。

2025-05-30

服务端 v2.2.0

新增功能

功能项	功能描述	相关文档
1个用户与多个AI角色语音互动	说明功能内测中，详情请联系 ZEGO 商务。	-
请求 LLM 时请求体包含智能体实例及用户相关信息	当创建智能体实例将 `AddAgentInfo` 字段设置为 `true` 时，AI Agent 后台向自定义 LLM 发起请求的请求体参数在基于 OpenAI 兼容协议上，额外增加 `agent_info` 字段，包含 `room_id` 、 `user_id` 、 `agent_instance_id` 等信息。从而可以实现针对不同用户或智能体实例，做个性化回应，例如根据用户id，调用不同的function calling或记忆等。	配置大语言模型
回调每轮用户说话的音频片段	当创建智能体实例将 `CallbackConfig` 的 `UserAudioData` 设置为1时，则 AI Agent 后台会回调用户每轮对话的前1～1.5s的音频数据（若小于1s则不发送）。业务侧可以基于此音频信息实现声纹识别等能力。	接收回调

改进优化

优化了在开启 ASR 多语句拼接时字幕、LLM 回调过早而带来的用户体验问题。详情请参考语音识别断句。

2025-05-16

服务端 v2.1.0

新增功能

功能项	功能描述	相关文档
多用户 vs 1 智能体	支持多用户同时与一个智能体语音互动的能力。支持包括语音打断、手动打断、智能体主动说话等能力，且智能体可区分用户进行回应等。说明功能内测中，详情请联系 ZEGO 商务。	-
语音识别断句	支持人声检测的断句阈值设置、停顿时长设置，从而实现延迟和语音识别断句之间的平衡。	语音识别断句
支持更多 TTS 服务提供商	新增支持阿里云、MiniMax两家厂商，支持火山引擎双向流式 API。	智能体参数说明 - TTS
打断智能体说话	支持关闭语音打断，同时支持手动打断。从而实现手动打断、Push-to-talk 对讲机等语音互动场景。	打断智能体说话
上下文管理	支持智能体实例级别的上下文管理相关能力，包括查询上下文、重置上下文等。	AI短期记忆（智能体上下文）管理
LLM 内容过滤	支持针对 LLM 输出内容过滤，可用于实现过滤 emoji、替换特定词等。说明详情请联系 ZEGO 技术支持。	-
回调事件	支持开发者通过服务端回调获取智能体被打断事件、用户说话行为和智能体说话行为。	获取智能体服务状态接收回调

改进优化

全面优化接入示例，提供业务服务控制页面及配套客户端示例代码。详情请参考快速开始。
进一步优化语音识别、打断准确率，尤其针对外部环境的音乐声。
进一步优化语音端到端延迟，进一步降低 200ms+ 延迟
支持在实时音视频（RTC）设置 token 鉴权，进一步增加互动的安全性，且不影响智能体互动。

2025-04-25

服务端 v2.0.0

版本更新

接入体验升级，通过不到 10 行代码，即可实现与 AI 智能体的语音通话。
全流程音频处理能力升级，大幅优化语音打断及识别准确率，尤其是在噪音环境、播放 BGM、双讲（AI 和用户同时讲话）等场景，全面覆盖居家、办公室、公共环境等各种环境下的 AI 互动。
同步支持包括：自定义三方大语言模型（LLM）、500ms 内的自然语音打断、实时字幕、智能体状态查询、主动调用 LLM、主动调用 TTS 等能力。
功能架构升级：支持多用户 vs 多 AI 智能体架构，更灵活的互动形式。

V1

2025-03-21

服务端 v1.4.0

新增功能

新增查询智能体状态服务端接口。
创建会话时，文本转语音配置对象新增 透传第三方参数 字段。
适用于 MiniMax 文本转语音服务的 透传第三方参数 新增 模型 字段。
ASR 配置对象新增 热词 字段和 扩展参数 字段。
用于主动调用文本转语音服务的服务端接口的请求参数新增 移除历史 字段。

2025-02-10

服务端 v1.3.0

新增功能

新增异常事件服务端回调。
文本转语音配置对象新增断句停顿耗时字段。

2025-01-16

服务端 v1.2.0

新增功能

创建会话时，大语言模型配置对象新增响应格式种类 和 响应消息名称字段。
会话、对话相关服务端接口和用于主动调用大语言模型和文本转语音服务的服务端接口的请求参数新增 用户 ID（必选）。
文本转语音配置对象中的扩展参数新增字段 API 种类 和 资源 ID。

2025-01-08

服务端 v1.1.0

新增功能

获取会话列表服务端接口新增 会话 ID 字段，支持根据会话 ID 查询会话详情。
创建会话服务端接口新增 对话历史模式 字段，支持是否保存会话历史消息。

改进优化

调整房间事件消息协议。

废弃删除

删除大语言模型、文本转语音配置对象中的 账号来源 字段。

2024-12-31

服务端 v1.0.0

版本更新

全面的服务可靠性 & 稳定性。
更低的端到端延迟、打断延迟。
更新音频处理能力，支持嘈杂环境，满足 80% 以上场景覆盖。
智能体模版库。
支持主动调用大语言模型。
支持主动调用文本转语音服务。
支持自定义 RAG 等能力。
大语言模型配置对象新增 忽略括号文本 字段，支持过滤大语言模型文本的表情包。

Beta

2024-12-16

服务端 v0.5.0

新增功能

新增用于主动调用文本转语音服务的服务端接口。
新增用于主动调用大语言模型服务的服务端接口。
新增用于获取大语言模型结果的服务端回调接口。
创建会话服务端接口新增 启用大语言模型服务端消息 配置。
大语言模型配置对象新增 忽略括号文本 字段，支持过滤大语言模型文本的表情包。

改进优化

自定义当轮对话大语言模型提示词的 时间戳 字段统一为 Int 类型。

2024-12-05

服务端 v0.3.0

新增功能

创建、更新、查询会话等服务端接口新增 对话配置 字段。
新增自定义大语言模型提示词前处理服务端接口协议。
文本转语音配置对象新增 忽略括号文本、忽略自定义括号文本 字段，支持忽略部分文本转语音服务的输入内容，例如中英文括号内的内容。

2024-11-26

服务端 v0.2.0

新增功能

新增适用于文本转语音服务的 扩展参数 字段，支持火山引擎和 Minimax 的复刻音色。
新增 410003101 等错误码。

问题修复

修复了在某些场景下，AI 智能体无法正常打断的问题。

2024-10-01

服务端 v0.1.0

版本发布

支持 AI 实时语音通话、IM 文字聊天等基础场景。
支持切换大语言模型（LLM）、文本转语音（TTS）服务提供商及音色等。