云端实时语音识别

产品简介

快速开始

最佳实践

1v1 实时翻译字幕

基础功能

API 参考

在线调试服务端 API

POST

开启云端实时语音识别

POST

停止云端实时语音识别

POST

添加识别流

POST

删除识别流

回调

异常事件错误码

概述

2026-01-23

产品简介

将语音通话、视频直播、在线会议等实时音视频场景中的语音内容实时转为文字结果。实现 1v1 语音通话实时字幕&翻译、在线会议实时字幕及会后纪要总结、全球直播字幕、直播间实时主播内容总结等场景。

产品优势

延迟600ms左右：从用户说话结束到获取到ASR识别结果，仅需要600ms即可快速获得识别结果。
识别准确度提升40%+
- 为语音识别特定优化的降噪能力，去除环境噪声、远处人声等对识别的干扰
- 更优的AI 回声消除能力，去除包括直播间礼物音效、BGM、语聊房内其他用户说话等造成的误识别
相较于传统方案节省50%+成本：仅针对包含了真实有效的内容时，启动语音识别能力，提高利用率，降低成本
支持多ASR模型，20+语言：腾讯、阿里百炼（paraformer、Gummy模型）、微软等，支持中文（普通话、粤语、方言等）、英文及各种小语种。

产品功能

功能模块	功能	说明
识别任务维度	房间维度	将RTC房间内的所有音视频流进行识别和翻译，并分别输出识别、翻译结果，包括 roomid、userid、streamid、userdata 及 ASR 的识别、翻译结果等信息
识别任务维度		流维度	将RTC房间内的个别流开启识别或翻译任务，并分别输出识别、翻译结果。
识别厂商&模型	腾讯实时语音识别	中文普通话、粤语、英语、韩语、日语、泰语、印度尼西亚语、越南语、马来语、菲律宾语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语、法语、德语、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话详细可参考腾讯云-实时语音识别
		阿里百炼Paraformer模型（联系商务）	中文（普通话、粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话）、英语、日语、韩语、德语、法语、俄语详细可参考阿里云百炼 Paraformer 实时语音识别
		阿里百炼Gummy模型（联系商务）	中文、英文、日语、韩语、法语、德语、西班牙语、意大利语、俄语、粤语、葡萄牙语、印尼语、阿拉伯语、泰语、印地语、丹麦语、乌尔都语、土耳其语、荷兰语、马来语、越南语详细可参考阿里云百炼 Gummy 实时语音识别
		微软（联系商务）	针对英语、小语种等支持程度和识别准确率更高。详情可参考微软实时语音转文本概述
翻译厂商&模型	豆包 doubao-seed-translation	字节跳动自研多语言翻译模型，支持数十种语言互译，译文忠实流畅，中英翻译效果逼近 Deepseek-R1，多语言效果超越或持平 GPT-4o / Gemini-2.5-Pro，适配多场景需求。详情可参考 doubao-seed-translation
翻译厂商&模型		Qwen-MT	基于 Qwen3 优化的机器翻译大模型，支持 92 个语种互译，并有术语干预、领域提示、记忆库功能，复杂场景翻译效果更佳。详情可参考翻译能力 Qwen-MT
任务参数控制	语音识别断句配置	设置断句间隔的时长，默认500ms
任务参数控制		RTC房间流式字幕下发	将识别结果、翻译结果，按照轮次流式下发到RTC房间中，可用于字幕展示等。

当前页

返回到顶部