AI 智能识别计费说明

AI 智能识别包括语音转文字AI 实时翻译实时语音合成三个能力。
语音转文字:通过 ASR(STT)把语音转录成文本,可实现实时字幕效果。
AI 实时翻译:将转换文本后的内容翻译成指定语言文本,可实现实时翻译效果。
实时语音合成:通过TTS技术把文本转换为语音,可实现实时语音合成效果。

计费说明

仅当您的应用版本为 RTC Engine 轻量版 及以上版本时,方可解锁语音转文字、AI 实时翻译和实时语音合成三项能力,其余版本不支持解锁上述能力。

语音转文字费用

语音转文字服务支持识别 TRTC 房间内指定用户或所有用户的音频流,通过 ASR(STT)把语音转录成文本,可实现实时字幕效果。
在翻译场景下为了保证整体效果,您无法使用第三方的 STT。
计费方式:日结后付费计费。
计费周期:按日计费。详细计费和出账时间以实际 计费账单 为准。

AI 实时翻译费用

AI 实时翻译服务可以将转换文本后的内容翻译成指定语言文本,可实现翻译效果。
计费方式:日结后付费计费。
计费周期:按日计费。详细计费和出账时间以实际 计费账单 为准。

实时语音合成费用

实时语音合成可以将任意文本实时转换为自然流畅的语音,可实现语音合成效果。
计费方式:日结后付费计费。
计费周期:按日计费。详细计费和出账时间以实际 计费账单 为准。

计费价格

语音转文字服务、AI 实时翻译服务和实时语音合成的刊例价如下表所示:
计费类型
模型类型
单价
支持语言
语音转文字
标准模型
0.02(美元/分钟)
支持 22 种语言,包括:
中文、中文繁体、英语、越南语、日语、韩语、印度尼西亚语、泰语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语、法语、马来语、菲律宾语、德语、意大利语、俄语、瑞典语、丹麦语、挪威语。更多语种支持可通过商务或者 提交工单 联系。
AI 实时翻译
标准模型
0.016(美元/分钟)
支持 15 种语言,包括:
中文、英语、越南语、日语、韩语、印度尼西亚语、泰语、葡萄牙语、阿拉伯语、西班牙语、法语、马来语、德语、意大利语、俄语。更多语种支持可通过商务或者 提交工单 联系。
实时语音合成
Flash
0.06 (美元/千字符)
支持中文、英语
多语种模型
支持 37 种语言,包括:
西班牙语、法语、俄语、德语、葡萄牙语、阿拉伯语、意大利语、日语、韩语、印尼语、越南语、土耳其语、荷兰语、乌克兰语、泰语、波兰语、罗马尼亚语、希腊语、捷克语、芬兰语、印地语、保加利亚语、丹麦语、希伯来语、马来语、波斯语、斯洛伐克语、瑞典语、克罗地亚语、菲律宾语、匈牙利语、挪威语、斯洛文尼亚语、加泰罗尼亚语、尼诺斯克语、泰米尔语、阿非利卡语。
多语种模型暂不支持自主接入,请通过商务或者 提交工单 联系。

用量统计

说明:
语音转文字,AI实时翻译时长统计精度为秒,按 SDKAppID 维度,以每日累计秒数转换成分钟数后进行计费,不足一分钟按一分钟计。
当房间内发起语音转文字和实时翻译时,将会有机器人作为虚拟观众加入房间,订阅需要语音转文字的音视频流,产生 音视频时长 用量费用。
实时语音合成统计精度为字符,收费单位为千字符,按日累计字符数进行计费,保留三位小数。
文本字符统计时,1 个汉字算 2 个字符(包括日文汉字、韩文汉字或其他语言中产生和用到的汉字);英语字母,其他语言字符,标点符号,特殊符号,空格,回车等都算 1 个字符。
语音转文本、实时翻译以及实时语音合成(在 AI 实时对话 方案中集成)并发限制 100;其他场景使用实时语音合成限制 20 QPS。 若您有更高的并发需求,请通过商务或者 提交工单 联系。

语音转文字

只有开始参与 AI 智能识别的音频时长才进行用量统计。
若主播多流输入,对每路流的使用时长进行相加统计收费。
只有在真人开启麦克风后,系统才会同步启用 ASR 服务识别语音内容,持续时间以真人开启麦克风持续时间为准。

AI 实时翻译

按照参与 AI 智能识别翻译能力的音频时长进行用量统计。
主播单路流输入,若输出多种翻译语言,则按照输入的音频时长 * 输出的语种个数进行收费。

实时语音合成

按照实时语音合成的输入文本字符数量进行用量统计。
主播单路流输入,按照需要语音合成的字符数量进行收费。

计费示例

用户 A 和 B 用中文通话,观众 C 需要看到英文字幕并能听到英文语音,观众 D 需要看到日文字幕并听到日文语音,需先使用语音转文本,再使用实时翻译和实时语音合成的功能,通话 10 分钟,语音合成英文字符用量 16 千字符(用户 A 和 用户 B 的中文内容翻译成英文后进行语音合成的字符量假设分别为 8000 个字符)、语音合成日文字符用量 10 千字符 (用户 A 和 用户 B 的中文内容翻译成日文后进行语音合成的字符量假设分别为 5000 个字符)的计费如下
计费类型
用户 A
用户 B
小计
语音转文字
10 分钟
10 分钟
20 分钟
实时翻译
10 分钟 * 2
10 分钟 * 2
40 分钟
实时语音合成
8 千英文字符 + 5 千日语字符
8 千英文字符 + 5 千日语字符
26 千字符
分析:
语音转文字:共产生 20 分钟用量,单价为 0.02 美元/分钟,共 0.4 美元。
实时翻译:共产生 40 分钟用量,单价为 0.016 美元/分钟,共 0.64 美元。
实时语音合成:共产生 26.000 千字符用量,单价为 0.06 美元/千字符,共 1.56 美元。
则在此场景中,您需要支付 2.6 美元。

接入指引

语音转文字、实时翻译具体接入步骤请参见 语音转文字和翻译 接入说明。
AI 对话中配置实时语音合成具体接入步骤请参见 AI 对话配置 TTS