当前页

语音活动检测 VAD 灵敏度

2026-05-12

功能说明

判断用户是否真正开始说话,从而触发语音识别、判断是否打断AI说话。在过滤环境噪音等影响后,主要通过以下指标综合判断:

  • 说话音量阈值 VAD.VoiceDetectConfig.SensitiveConfig.EnergyThreshold。音量越大,则用户开始说话的可能性越大。
  • 有效语音时间长短 VAD.VoiceDetectConfig.SensitiveConfig.MinSpeechDur。时间越长,则用户开始说话的可能性越大。 通过合理的调节这两个参数,可以防止轻声表示赞同或思考的"嗯···"、"喔···"、"确实···"等,但是也可能影响正常音量大小的短句识别和打断,例如"哈喽"、"你好"、"停"等。因此需要根据互动的环节进行合理调节。

参数说明

影响语音打断灵敏度的参数在创建/更新智能体实例的 VAD 参数中。可参考创建智能体实例 > Body > VAD 参数说明。详细说明如下:

参数名类型必填说明
VAD.VoiceDetectConfig.SensitiveConfig.LevelInt用于控制 VAD 的敏感度级别。取值范围 [0,3]:
0:中等敏感度,默认值
1:低敏感度
2:高敏感度
3:自定义模式,需配合 MinSpeechDur 和 EnergyThreshold 使用
VAD.VoiceDetectConfig.SensitiveConfig.MinSpeechDurInt用于设置 VAD 检测的最小说话时长阈值,低于该时长的语音片段将被过滤。单位毫秒,取值范围 [0,1000]。值越大,越不容易误检,但可能会引起有些短语音漏检。
注意: 仅在 Level 设置为 3(自定义模式)时生效。
VAD.VoiceDetectConfig.SensitiveConfig.EnergyThresholdFloat用于设置 VAD 的能量阈值,用于区分语音和噪音。取值范围 [0,1]。值越小,灵敏度越高;值越大,灵敏度越低。VAD 通过计算音频信号的能量值来判断是否为语音,当音频能量超过此阈值时判定为语音活动,低于该阈值则认为是静音或噪音。
注意: 仅在 Level 设置为 3(自定义模式)时生效。

当前 AI Agent 服务默认提供三种打断灵敏度(Level)可选,其对应参数值和效果说明如下:

灵敏度等级 Level参数值(EnergyThreshold,MinSpeechDur)无意义短词、语气词、咳嗽、哈切等声音的不打断效果有意义短词的打断识别效果
低(Level=1)0.4,100较差
中(默认)(Level=0)0.2,0较好较好
高(Level=2)0.1,0

如果预定义的灵敏度等级无法满足业务需求,可以通过设置 Level=3(自定义模式),更精细地调整 MinSpeechDur 和 EnergyThreshold 这两个参数控制打断灵敏度。

使用示例

使用默认打断灵敏度Level

注册智能体、创建智能体实例时,不传入 VAD 参数或仅传入空的 VAD 参数,则使用默认的 Level = 0(中等敏感度)。若需显示指定 Level 参数,通过传入 VAD 相关参数:

{
    "VAD": {
        "VoiceDetectConfig": {
            "SensitiveConfig": {
                "Level": 1 // 0 = medium(中等敏感度,默认值),1 = low(低敏感度),2 = high(高敏感度),3 = custom(自定义模式,需配合 MinSpeechDur 和 EnergyThreshold 使用)
            }
        }
    }
}

自定义调节打断参数MinSpeechDur、EnergyThreshold

注册智能体、创建智能体实例时,若需显示指定 Level、MinSpeechDur、EnergyThreshold 参数,通过传入 VAD 相关参数:

{
    "VAD": {
        "VoiceDetectConfig": {
            "SensitiveConfig": {
                "Level": 3, // 3 = custom(自定义模式,需配合 MinSpeechDur 和 EnergyThreshold 使用)
                "MinSpeechDur": 100, // 用于设置 VAD 检测的最小说话时长阈值,低于该时长的语音片段将被过滤。单位毫秒,取值范围 [0,1000]。值越大,越不容易误检,但可能会引起有些短语音漏检。
                "EnergyThreshold": 0.1 // 用于设置 VAD 的能量阈值,用于区分语音和噪音。取值范围 [0,1]。值越小,灵敏度越高;值越大,灵敏度越低。
            }
        }
    }
}

上一篇

AI 短期记忆(智能体上下文)管理

下一篇

控制智能体语音情绪

当前页

返回到顶部