概述
2026-01-23
产品简介
将语音通话、视频直播、在线会议等实时音视频场景中的语音内容实时转为文字结果。 实现 1v1 语音通话实时字幕&翻译、在线会议实时字幕及会后纪要总结、全球直播字幕、直播间实时主播内容总结等场景。
产品优势
- 延迟600ms左右:从用户说话结束到获取到ASR识别结果,仅需要600ms即可快速获得识别结果。
- 识别准确度提升40%+
- 为语音识别特定优化的降噪能力,去除环境噪声、远处人声等对识别的干扰
- 更优的AI 回声消除能力,去除包括直播间礼物音效、BGM、语聊房内其他用户说话等造成的误识别
- 相较于传统方案节省50%+成本:仅针对包含了真实有效的内容时,启动语音识别能力,提高利用率,降低成本
- 支持多ASR模型,20+语言:腾讯、阿里百炼(paraformer、Gummy模型)、微软等,支持中文(普通话、粤语、方言等)、英文及各种小语种。
产品功能
| 功能模块 | 功能 | 说明 |
|---|---|---|
| 识别任务维度 | 房间维度 | 将RTC房间内的所有音视频流进行识别和翻译,并分别输出识别、翻译结果,包括 roomid、userid、streamid、userdata 及 ASR 的识别、翻译结果等信息 |
| 流维度 | 将RTC房间内的个别流开启识别或翻译任务,并分别输出识别、翻译结果。 | |
| 识别厂商&模型 | 腾讯实时语音识别 | 中文普通话、粤语、英语、韩语、日语、泰语、印度尼西亚语、越南语、马来语、菲律宾语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语、法语、德语、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话 详细可参考腾讯云-实时语音识别 |
| 阿里百炼Paraformer模型(联系商务) | 中文(普通话、粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话)、英语、日语、韩语、德语、法语、俄语 详细可参考阿里云百炼 Paraformer 实时语音识别 | |
| 阿里百炼Gummy模型(联系商务) | 中文、英文、日语、韩语、法语、德语、西班牙语、意大利语、俄语、粤语、葡萄牙语、印尼语、阿拉伯语、泰语、印地语、丹麦语、乌尔都语、土耳其语、荷兰语、马来语、越南语 详细可参考阿里云百炼 Gummy 实时语音识别 | |
| 微软(联系商务) | 针对英语、小语种等支持程度和识别准确率更高。详情可参考微软实时语音转文本概述 | |
| 翻译厂商&模型 | 豆包 doubao-seed-translation | 字节跳动自研多语言翻译模型,支持数十种语言互译,译文忠实流畅,中英翻译效果逼近 Deepseek-R1,多语言效果超越或持平 GPT-4o / Gemini-2.5-Pro,适配多场景需求。详情可参考 doubao-seed-translation |
| Qwen-MT | 基于 Qwen3 优化的机器翻译大模型,支持 92 个语种互译,并有术语干预、领域提示、记忆库功能,复杂场景翻译效果更佳。详情可参考 翻译能力 Qwen-MT | |
| 任务参数控制 | 语音识别断句配置 | 设置断句间隔的时长,默认500ms |
| RTC房间流式字幕下发 | 将识别结果、翻译结果,按照轮次流式下发到RTC房间中,可用于字幕展示等。 |
