logo
当前页

发布日志


V2

2025-05-16

服务端 v2.1.0

新增功能

功能项功能描述相关文档
多用户 vs 1 智能体支持多用户同时与一个智能体语音互动的能力。支持包括语音打断、手动打断、智能体主动说话等能力,且智能体可区分用户进行回应等。
说明
详情请联系 ZEGO 商务。
-
语音识别断句支持人声检测的断句阈值设置、停顿时长设置,从而实现延迟和语音识别断句之间的平衡。语音识别断句
支持更多 TTS 服务提供商新增支持阿里云、MiniMax两家厂商,支持火山引擎双向流式 API。智能体参数说明 - TTS
打断智能体说话支持关闭语音打断,同时支持手动打断。从而实现手动打断、Push-to-talk 对讲机等语音互动场景。打断智能体说话
上下文管理支持智能体实例级别的上下文管理相关能力,包括查询上下文、重置上下文等。AI短期记忆(智能体上下文)管理
LLM 内容过滤支持针对 LLM 输出内容过滤,可用于实现过滤 emoji、替换特定词等。
说明
详情请联系 ZEGO 技术支持。
-
回调事件支持开发者通过服务端回调获取智能体被打断事件、用户说话行为和智能体说话行为。

改进优化

  • 全面优化接入示例,提供业务服务控制页面及配套客户端示例代码。详情请参考 快速开始
  • 进一步优化语音识别、打断准确率,尤其针对外部环境的音乐声。
  • 进一步优化语音端到端延迟,进一步降低 200ms+ 延迟
  • 支持在实时音视频(RTC)设置 token 鉴权,进一步增加互动的安全性,且不影响智能体互动。

2025-04-25

服务端 v2.0.0

版本更新

  • 接入体验升级,通过不到 10 行代码,即可实现与 AI 智能体的语音通话。
  • 全流程音频处理能力升级,大幅优化语音打断及识别准确率,尤其是在噪音环境、播放 BGM、双讲(AI 和用户同时讲话)等场景,全面覆盖居家、办公室、公共环境等各种环境下的 AI 互动。
  • 同步支持包括:自定义三方大语言模型(LLM)、500ms 内的自然语音打断、实时字幕、智能体状态查询、主动调用 LLM、主动调用 TTS 等能力。
  • 功能架构升级:支持多用户 vs 多 AI 智能体架构,更灵活的互动形式。

V1

2025-03-21

服务端 v1.4.0

新增功能

  • 新增查询智能体状态服务端接口。
  • 创建会话时,文本转语音配置对象新增 透传第三方参数 字段。
  • 适用于 MiniMax 文本转语音服务的 透传第三方参数 新增 模型 字段。
  • ASR 配置对象新增 热词 字段和 扩展参数 字段。
  • 用于主动调用文本转语音服务的服务端接口的请求参数新增 移除历史 字段。

2025-02-10

服务端 v1.3.0

新增功能

  • 新增异常事件服务端回调。
  • 文本转语音配置对象新增断句停顿耗时字段。

2025-01-16

服务端 v1.2.0

新增功能

  • 创建会话时,大语言模型配置对象新增响应格式种类响应消息名称字段。
  • 会话、对话相关服务端接口和用于主动调用大语言模型和文本转语音服务的服务端接口的请求参数新增 用户 ID(必选)。
  • 文本转语音配置对象中的扩展参数新增字段 Api 种类资源 ID

2025-01-08

服务端 v1.1.0

新增功能

  • 获取会话列表服务端接口新增 会话 ID 字段,支持根据会话 ID 查询会话详情。
  • 创建会话服务端接口新增 对话历史模式 字段,支持是否保存会话历史消息。

改进优化

  • 调整房间事件消息协议。

废弃删除

  • 删除大语言模型、文本转语音配置对象中的 账号来源 字段。

2024-12-31

服务端 v1.0.0

版本更新

  • 全面的服务可靠性 & 稳定性。
  • 更低的端到端延迟、打断延迟。
  • 更新音频处理能力,支持嘈杂环境,满足 80% 以上场景覆盖。
  • 智能体模版库。
  • 支持主动调用大语言模型。
  • 支持主动调用文本转语音服务。
  • 支持自定义 RAG 等能力。
  • 大语言模型配置对象新增 忽略括号文本 字段,支持过滤大语言模型文本的表情包。

Beta

2024-12-16

服务端 v0.5.0

新增功能

  • 新增用于主动调用文本转语音服务的服务端接口。
  • 新增用于主动调用大语言模型服务的服务端接口。
  • 新增用于获取大语言模型结果的服务端回调接口。
  • 创建会话服务端接口新增 启用大语言模型服务端消息 配置。
  • 大语言模型配置对象新增 忽略括号文本 字段,支持过滤大语言模型文本的表情包。

改进优化

  • 自定义当轮对话大语言模型提示词的 时间戳 字段统一为 Int 类型。

2024-12-05

服务端 v0.3.0

新增功能

  • 创建、更新、查询会话等服务端接口新增 对话配置 字段。
  • 新增自定义大语言模型提示词前处理服务端接口协议。
  • 文本转语音配置对象新增 忽略括号文本忽略自定义括号文本 字段,支持忽略部分文本转语音服务的输入内容,例如中英文括号内的内容。

2024-11-26

服务端 v0.2.0

新增功能

  • 新增适用于文本转语音服务的 扩展参数 字段,支持火山引擎和 Minimax 的复刻音色。
  • 新增 410003101 等错误码。

问题修复

  • 修复了在某些场景下,AI 智能体无法正常打断的问题。

2024-10-01

服务端 v0.1.0

版本发布

  • 支持 AI 实时语音通话、IM 文字聊天等基础场景。
  • 支持切换大语言模型(LLM)、文本转语音(TTS)服务提供商及音色等。

Previous

体验 Demo

Next

快速开始