AI 智能识别计费说明

AI 智能识别包括 语音转文字AI 实时翻译和实时语音合成三个能力。
语音转文字:通过 ASR(STT)把语音转录成文本,可实现实时字幕效果。
AI 实时翻译:将转换文本后的内容翻译成指定语言文本,可实现实时翻译效果。
实时语音合成:通过TTS技术把文本转换为语音,可实现实时语音合成效果。

计费说明

仅当您的应用版本为RTC Engine 轻量版及以上版本时,方可解锁语音转文字、AI 实时翻译和实时语音合成三项能力,其余版本不支持解锁上述能力。

语音转文字费用

语音转文字服务支持识别 TRTC 房间内指定用户或所有用户的音频流,通过 ASR(STT)把语音转录成文本,可实现实时字幕效果。
在翻译场景下为了保证整体效果,您无法使用第三方的 STT。
计费方式:日结后付费计费。
计费周期:按日计费。详细计费和出账时间以实际 计费账单 为准。

AI 实时翻译费用

AI 实时翻译服务可以将转换文本后的内容翻译成指定语言文本,可实现翻译效果。
计费方式:日结后付费计费。
计费周期:按日计费。详细计费和出账时间以实际 计费账单 为准。

实时语音合成费用

实时语音合成可以将任意文本实时转换为自然流畅的语音,可实现语音合成效果。
计费方式:日结后付费计费。
计费周期:按日计费。详细计费和出账时间以实际 计费账单 为准。

计费价格

语音转文字服务、AI 实时翻译服务和实时语音合成的刊例价如下表所示:
计费类型
模型类型
单价
支持语言
语音转文字
标准模型
0.02(美元/分钟)
支持 22 种语言,包括:
中文、中文繁体、英语、越南语、日语、韩语、印度尼西亚语、泰语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语、法语、马来语、菲律宾语、德语、意大利语、俄语、瑞典语、丹麦语、挪威语。
AI 实时翻译
标准模型
0.016(美元/分钟)
支持 15 种语言,包括:
中文、英语、越南语、日语、韩语、印度尼西亚语、泰语、葡萄牙语、阿拉伯语、西班牙语、法语、马来语、德语、意大利语、俄语。
实时语音合成
Flash
0.06 (美元/千字符)
支持中文、英语
多语种模型
支持 37 种语言,包括:
西班牙语、法语、俄语、德语、葡萄牙语、阿拉伯语、意大利语、日语、韩语、印尼语、越南语、土耳其语、荷兰语、乌克兰语、泰语、波兰语、罗马尼亚语、希腊语、捷克语、芬兰语、印地语、保加利亚语、丹麦语、希伯来语、马来语、波斯语、斯洛伐克语、瑞典语、克罗地亚语、菲律宾语、匈牙利语、挪威语、斯洛文尼亚语、加泰罗尼亚语、尼诺斯克语、泰米尔语、阿非利卡语

用量统计

说明:
语音转文字,AI实时翻译时长统计精度为秒,按 SDKAppID 维度,以每日累计秒数转换成分钟数后进行计费,不足一分钟按一分钟计。
当房间内发起语音转文字和实时翻译时,将会有机器人作为虚拟观众加入房间,订阅需要语音转文字的音视频流,产生 音视频时长 用量费用。
实时语音合成统计精度为字符,收费单位为千字符,按日累计字符数进行计费,保留三位小数。
文本字符统计时,1 个汉字算 2 个字符(包括日文汉字、韩文汉字或其他语言中产生和用到的汉字);英语字母,其他语言字符,标点符号,特殊符号,空格,回车等都算 1 个字符。

语音转文字

只有开始参与 AI 智能识别的音频时长才进行用量统计。
若主播多流输入,对每路流的使用时长进行相加统计收费。

AI 实时翻译

按照参与 AI 智能识别翻译能力的音频时长进行用量统计。
主播单路流输入,若输出多种翻译语言,则按照输入的音频时长 * 输出的语种个数进行收费。

实时语音合成

按照实时语音合成的输入文本字符数量进行用量统计。
主播单路流输入,按照需要语音合成的字符数量进行收费。

计费示例

下列示例计费统计均保留三位小数: 您使用 AI 智能识别服务。用户 A 和 B 用中文通话,观众 C 需要看到英文字幕并能听到英文语音,观众 D 需要看到日文字幕并听到日文语音,使用智能识别进行语音转文本,再使用实时翻译和实时语音合成的功能,通话 50.000 分钟,文本字符累计 40.000 千字符(用户 A 中文通话的文本字符为 9.000 千字符,用户 B 中文通话的文本字符为 11.000 千字符)。此示例中 AI 智能识别等费用如下:
计费类型
用户 A
用户 B
小计
语音转文字
50.000 分钟
50.000 分钟
100.000 分钟
AI 实时翻译
50.000 分钟 * 2
50.000 分钟 * 2
200.000 分钟
实时语音合成
9.000 千字符 * 2
11.000 千字符 * 2
40.000 千字符
语音转文字费用:共产生 100.000 分钟用量,单价为 0.020 美元/分钟,则 0.020 × 100.000 = 2.000 美元。
AI 实时翻译费用:共产生 200.000 分钟用量,单价为 0.016 美元/分钟,则 0.016 × 200.000 = 3.200 美元。
实时语音合成费用:共产生40.000 千字符用量,单价为 0.060 美元/千字符,则 0.060 x 40.000 = 2.400 美元。
则在此场景中,您需要支付 AI 智能识别费用:7.600 美元。

接入指引

语音转文字、实时翻译具体接入步骤请参见 语音转文字和翻译 接入说明。
AI 对话中配置实时语音合成具体接入步骤请参见 AI 对话配置 TTS