AI 智能识别计费说明

Download

聚焦模式

字号

最后更新时间： 2026-07-03 17:23:13

 AI 智能识别包括语音转文字、AI 实时翻译和文本转语音三个能力。
语音转文字：通过 STT 把语音转录成文本，可实现实时字幕效果。
AI 实时翻译：将转换文本后的内容翻译成指定语言文本，可实现实时翻译效果。
文本转语音：通过 TTS 技术把文本转换为语音，可实现文本转语音效果。
计费说明
语音转文字、AI 实时翻译、文本转语音三项能力无需购买包月套餐即可使用，每月赠送的 10,000 分钟 免费时长 可直接抵扣上述服务用量；免费时长耗尽后，若已开启按量后付费，将自动转为后付费计费。
语音转文字费用
语音转文字服务支持识别 TRTC 房间内指定用户或所有用户的音频流，通过 STT 把语音转录成文本，可实现实时字幕效果。
在翻译场景下为了保证整体效果，您无法使用第三方的 STT。
计费方式：日结后付费计费。
计费周期：按日计费。详细计费和出账时间以实际 计费账单 为准。
AI 实时翻译费用
AI 实时翻译服务可以将转换文本后的内容翻译成指定语言文本，可实现翻译效果。
计费方式：日结后付费计费。
计费周期：按日计费。详细计费和出账时间以实际 计费账单 为准。
文本转语音费用
文本转语音可以将任意文本实时转换为自然流畅的语音，可实现语音合成效果。
计费方式：日结后付费计费。
计费周期：按日计费。详细计费和出账时间以实际 计费账单 为准。
计费价格
语音转文字服务、AI 实时翻译服务和文本转语音的刊例价如下表所示：
计费类型
模型类型
单价
支持语言
语音转文字
标准模型
0.02（美元/分钟）
支持 22 种语言，包括：
中文、中文繁体、英语、越南语、日语、韩语、印度尼西亚语、泰语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语、法语、马来语、菲律宾语、德语、意大利语、俄语、瑞典语、丹麦语、挪威语。更多语种支持可通过商务或者 提交工单 联系。
AI 实时翻译
标准模型
0.016（美元/分钟）
支持 15 种语言，包括：
中文、英语、越南语、日语、韩语、印度尼西亚语、泰语、葡萄牙语、阿拉伯语、西班牙语、法语、马来语、德语、意大利语、俄语。更多语种支持可通过商务或者 提交工单 联系。
文本转语音
Flash
0.06 （美元/千字符）
支持中文、英语、日语、韩语以及粤语方言文本实时转换为自然流畅的多音色语音。
﻿
多语种模型
﻿
若您有中英日韩之外的语种需求，请通过商务或者 提交工单 联系。
用量统计
说明：
语音转文字，AI 实时翻译时长统计精度为秒，按 SDKAppID 维度，以每日累计秒数转换成分钟数后进行计费，不足一分钟按一分钟计。
当房间内发起语音转文字和实时翻译时，将会有机器人作为虚拟观众加入房间，订阅需要语音转文字的音视频流，产生 音视频时长 用量费用。
文本转语音统计精度为字符，收费单位为千字符，按日累计字符数进行计费，保留三位小数。
文本字符统计时，1 个汉字算 2 个字符（包括日文汉字、韩文汉字或其他语言中产生和用到的汉字）；英语字母，其他语言字符，标点符号，特殊符号，空格，回车等都算 1 个字符。
语音转文本、实时翻译以及文本转语音（在 AI 实时对话 方案中集成）并发限制 100；其他场景使用文本转语音限制 20 QPS。 若您有更高的并发需求，请通过商务或者 提交工单 联系。
语音转文字
只有开始参与 AI 智能识别的音频时长才进行用量统计。
若主播多流输入，对每路流的使用时长进行相加统计收费。
只有在真人开启麦克风后，系统才会同步启用 STT 服务识别语音内容，持续时间以真人开启麦克风持续时间为准。
AI 实时翻译
按照参与 AI 智能识别翻译能力的音频时长进行用量统计。
主播单路流输入，若输出多种翻译语言，则按照输入的音频时长 * 输出的语种个数进行收费。
文本转语音
按照文本转语音的输入文本字符数量进行用量统计。
主播单路流输入，按照需要语音合成的字符数量进行收费。
计费示例
用户 A 和 B 用中文通话，观众 C 需要看到英文字幕并能听到英文语音，观众 D 需要看到日文字幕并听到日文语音，需先使用语音转文字，再使用实时翻译和文本转语音的功能，通话 10 分钟，语音合成英文字符用量 16 千字符（用户 A 和 用户 B 的中文内容翻译成英文后进行语音合成的字符量假设分别为 8000 个字符）、语音合成日文字符用量 10 千字符 (用户 A 和 用户 B 的中文内容翻译成日文后进行语音合成的字符量假设分别为 5000 个字符）的计费如下
计费类型
用户 A
 用户 B
小计
语音转文字
10 分钟
10 分钟
20 分钟
实时翻译
10 分钟 * 2
10 分钟 * 2
40 分钟
文本转语音
8 千英文字符 + 5 千日语字符
8 千英文字符 + 5 千日语字符
26 千字符
分析：
语音转文字：共产生 20 分钟用量，单价为 0.02 美元/分钟，共 0.4 美元。
实时翻译：共产生 40 分钟用量，单价为 0.016 美元/分钟，共 0.64 美元。
文本转语音：共产生 26.000 千字符用量，单价为 0.06 美元/千字符，共 1.56 美元。
则在此场景中，您需要支付 2.6 美元。
接入指引
语音转文字、实时翻译具体接入步骤请参见 语音转文字和翻译 接入说明。
AI 对话中配置文本转语音具体接入步骤请参见 AI 对话配置 TTS。
﻿

帮助和支持

本页内容是否解决了您的问题？

您也可以联系销售或提交工单以寻求帮助。

填写满意度调查问卷，共创更好文档体验。

文档反馈

tencent cloud

实时音视频

AI 智能识别计费说明

计费说明

语音转文字费用

AI 实时翻译费用

文本转语音费用

计费价格

用量统计

语音转文字

AI 实时翻译

文本转语音

计费示例

接入指引

帮助和支持

计费类型	模型类型	单价	支持语言
语音转文字	标准模型	0.02（美元/分钟）	支持 22 种语言，包括：中文、中文繁体、英语、越南语、日语、韩语、印度尼西亚语、泰语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语、法语、马来语、菲律宾语、德语、意大利语、俄语、瑞典语、丹麦语、挪威语。更多语种支持可通过商务或者提交工单联系。
AI 实时翻译	标准模型	0.016（美元/分钟）	支持 15 种语言，包括：中文、英语、越南语、日语、韩语、印度尼西亚语、泰语、葡萄牙语、阿拉伯语、西班牙语、法语、马来语、德语、意大利语、俄语。更多语种支持可通过商务或者提交工单联系。
文本转语音	Flash	0.06 （美元/千字符）	支持中文、英语、日语、韩语以及粤语方言文本实时转换为自然流畅的多音色语音。
文本转语音		0.06 （美元/千字符）	多语种模型	若您有中英日韩之外的语种需求，请通过商务或者提交工单联系。

计费类型	用户 A	用户 B	小计
语音转文字	10 分钟	10 分钟	20 分钟
实时翻译	10 分钟 * 2	10 分钟 * 2	40 分钟
文本转语音	8 千英文字符 + 5 千日语字符	8 千英文字符 + 5 千日语字符	26 千字符