logo
当前页

概述

产品简介

将语音通话、视频直播、在线会议等实时音视频场景中的语音内容实时转为文字结果。 实现 1v1 语音通话实时字幕&翻译、在线会议实时字幕及会后纪要总结、全球直播字幕、直播间实时主播内容总结等场景。

产品优势

  1. 延迟600ms左右:从用户说话结束到获取到ASR识别结果,仅需要600ms即可快速获得识别结果。
  2. 识别准确度提升40%+
    • 为语音识别特定优化的降噪能力,去除环境噪声、远处人声等对识别的干扰
    • 更优的AI 回声消除能力,去除包括直播间礼物音效、BGM、语聊房内其他用户说话等造成的误识别
  3. 相较于传统方案节省50%+成本:仅针对包含了真实有效的内容时,启动语音识别能力,提高利用率,降低成本

产品功能

功能模块功能说明
识别任务维度房间维度将RTC房间内的所有音视频流进行识别,并分别输出识别结果,包括roomid、userid、streamid、userdata及ASR的识别结果等信息
识别能力识别语言中文普通话、粤语、英语、韩语、日语、泰语、印度尼西亚语、越南语、马来语、菲律宾语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语、法语、德语、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话
断句配置设置断句间隔的时长,默认500ms

Next

定价