智能体应用克隆音色
在与智能体进行实时语音互动对话时,可以将智能体的音色切换为期望的音色,例如某个用户的声音。只需录制秒级别的目标人物声音,即可即时完成对人物音色、说话风格、口音和声学环境音的复刻。
音色克隆属于增值能力,计费方式请参考:TTS 定价 说明。
说明
目前支持火山引擎、MiniMax、阿里等多家厂商的声音复刻及文本转语音能力。
前提条件
- 已经参考快速开始接入 AI Agent 服务。
- 请联系技术支持开通TTS(文字转语音/语音合成/声音克隆)服务(需要选定所需厂商),并获取相关子账号或API鉴权信息等。
使用步骤
1
按各厂商指引克隆音色
MiniMax
火山引擎
2
在语音对话中使用克隆的音色
在注册Agent智能体(RegisterAgent)或创建智能体实例(CreateAgentInstance)时,设置 TTS 结构体中填写Params字段,该字段将透传给第三方 TTS 的接口,其中就包括音色信息:
- MiniMax:填写 voice_id
- 火山引擎:填写 speaker_id
MiniMax
火山引擎 - 单向流式TTS
火山引擎 - 双向流式TTS
// Minimax,voice_id 填写为使用克隆的音色
"TTS": {
"Vendor": "MiniMax",
"Params": {
"app": {
"group_id": "your_group_id",
"api_key": "your_api_key"
},
"model": "speech-02-turbo-preview",
"voice_setting": {
"voice_id": "clone_voice_id"
}
}
}
1
// 1. cluster
// volcano_mega: 声音复刻大模型 1.0
// volcano_icl: 声音复刻大模型 2.0
// 2. voice_type 填写为使用克隆的speaker_id
"TTS": {
"Vendor": "ByteDance",
"Params": {
"app": {
"appid": "your_appid",
"token": "your_token",
"cluster": "volcano_icl"
},
"audio": {
"voice_type": "clone_speaker_id",
}
}
}
1
// 1. resource_id:根据控制台查看开通的版本选择
// volc.megatts.default(小时版)
// volc.megatts.concurr(并发版)
// 2. speaker 填写为使用克隆的speaker_id
"TTS": {
"Vendor": "ByteDanceFlowing",
"Params": {
"app": {
"appid": "your appid",
"token": "your token",
"resource_id": "volc.megatts.default"
},
"req_params": {
"speaker": "clone_speaker_id" //音色id
}
}
}
1