获取智能体状态及延迟数据

2026-04-07

在与智能体进行实时语音通话时，您可能需要获取智能体实例的状态或实时变化消息，以便在业务端及时进行后续处理或保证业务的稳定性。您可以通过主调接口或者监听相应的服务端回调来获取这些信息。

信息包括以下类型：

服务端异常事件：包括 AI Agent 服务错误、实时音视频 RTC 相关错误、大语言模型（LLM）相关错误、文本转语音（TTS）相关错误（例如 TTS 并发超限等）等。
智能体实例状态：
- 通过服务端主调接口可查询的状态：空闲中、聆听中、思考中、讲话中等。
- 通过服务端回调可监听智能体创建成功、被打断、删除成功等事件。
智能体平均延迟数据：
- 大语言模型(LLM)相关耗时。
- 文字转语音(TTS)相关耗时。
- AI Agent服务端总耗时。
- 客户端&服务端耗时。可通过 ZEGO Express SDK 获取。详情请参考通话质量监测。

监听服务端异常事件

注意

请联系 ZEGO 技术支持配置用于接收 AI Agent 后台回调的地址。

当服务端有异常事件时，AI Agent 后台会向上述配置的地址发送异常事件通知（Event为Exception），内容示例如下：

{
    "AppId": 123456789,
// !mark
    "Event": "Exception",
    "Nonce": "abcdd22113",
    "Timestamp":1741221508000,
    "Signature": "XXXXXXX",
    "Sequence": 1921825797275873300,
    "RoomId": "test_room",
    "AgentUserId": "test_agent",
    "AgentInstanceId": "1912124734317838336",
    "Data": {
        "Code": 2203,
        "Message": "The API key in the request is missing or invalid"
    }
}

{
    "AppId": 123456789,
// !mark
    "Event": "Exception",
    "Nonce": "abcdd22113",
    "Timestamp":1741221508000,
    "Signature": "XXXXXXX",
    "Sequence": 1921825797275873300,
    "RoomId": "test_room",
    "AgentUserId": "test_agent",
    "AgentInstanceId": "1912124734317838336",
    "Data": {
        "Code": 2203,
        "Message": "The API key in the request is missing or invalid"
    }
}

更多详细信息请参考接收回调和异常事件错误码文档。

获取智能体实例状态

主动调用服务端接口获取

调用查询智能体实例状态接口（ QueryAgentInstanceStatus ），传入对应的 AgentInstanceId ，服务端将返回智能体实例当前的状态（如空闲中、聆听中、思考中、讲话中等）。

说明

在你创建智能体实例（CreateAgentInstance）的成功响应中包含 AgentInstanceId 字段。

监听智能体相关事件

注意

请联系 ZEGO 技术支持配置用于接收 AI Agent 后台回调的地址。

获取智能体延迟数据

注意

请联系 ZEGO 技术支持配置用于接收 AI Agent 后台回调的地址。

当智能体实例删除成功，会回调 AgentInstanceDeleted 事件，其中会包含与智能体实例对话的平均延迟数据。

AgentInstanceDeleted 回调数据示例

{
    "AppId": 1234567,
    "AgentInstanceId": "1912124734317838336",
    "AgentUserId": "agent_user_1",
    "RoomId": "room_1",
    "Sequence": 1234567890,
    "Data": {
        "Code": 0,
        "DeletedTimestamp": 1745502345138,
        "LatencyData": {
            "LLMTTFT": 613,
            "LLMTPS": 11.493,
            "TTSAudioFirstFrameTime": 783,
            "TotalCost": 1693
        }
    },
    "Event": "AgentInstanceDeleted",
    "Nonce": "7450395512627324902",
    "Signature": "fd9c1ce54e85bd92f48b0a805e82a52b0c0c6445",
    "Timestamp": 1745502313000
}

AgentInstanceDeleted 回调数据示例

{
    "AppId": 1234567,
    "AgentInstanceId": "1912124734317838336",
    "AgentUserId": "agent_user_1",
    "RoomId": "room_1",
    "Sequence": 1234567890,
    "Data": {
        "Code": 0,
        "DeletedTimestamp": 1745502345138,
        "LatencyData": {
            "LLMTTFT": 613,
            "LLMTPS": 11.493,
            "TTSAudioFirstFrameTime": 783,
            "TotalCost": 1693
        }
    },
    "Event": "AgentInstanceDeleted",
    "Nonce": "7450395512627324902",
    "Signature": "fd9c1ce54e85bd92f48b0a805e82a52b0c0c6445",
    "Timestamp": 1745502313000
}

其中几个延迟数据（平均值）定义如下：

参数	类型	描述
LLMTTFT	Int	LLM 首 token 平均耗时（毫秒）。请求大语言模型至大语言模型返回首个非空 token 的耗时。
LLMTPS	Float64	LLM 平均输出速度（tokens/秒）。大语言模型平均每秒输出的 token 数量
TTSAudioFirstFrameTime	Int	TTS 音频首帧平均耗时（毫秒）。从首个非空 LLM token 至首个 TTS 非静音首帧返回（包含了建立请求的时间）
TotalCost	Int	AI Agent 服务端平均总耗时（毫秒）: 用户说话: AI Agent 服务端拉流并判断用户说话结束至 TTS 返回首个非静音帧并开始推流的耗时。所有服务端产生的耗时，至少包含语音识别 ASR 耗时、大语言模型 LLM 相关耗时、文字转语音 TTS 相关耗时等。自定义调用 LLM/TTS: 从 API 调用开始至开始推流的耗时。