文字转语音配置

本文主要介绍 TTS 模块的配置。
TTS 模块将 LLM 生成的文本回复转换为自然语音,实时交付给用户。依托 TRTC 超低延迟管线(端到端音频延迟低于 300ms),合成语音以最小延迟触达用户。灵活的框架支持选择 TRTC 内置实时 TTS(精选音色库)或通过 TTSConfig 对象接入第三方 TTS 提供商。

可用提供商

提供商
模型
集成方式
适用场景
TRTC TTS
flow_01_turbo 等
内置
最低延迟,无需外部账号
speech-2.8-turbo、speech-2.8-hd 等
自带
情感丰富的中文音色
Azure TTS
Neural voices(400+)
自带
400+ 音色、140+ 语言
Cartesia
sonic-3-2026-01-12、sonic-multilingual 等
自带
超低延迟、实时流式
eleven_3、eleven_flash_v2_5 等
自带
最接近人声、语音克隆
Inworld
Inworld AI 音色
自带
游戏 NPC、交互式角色
你的模型
自带
接入自有 TTS 服务
内置 vs 自带:
TRTC 内置 TTS 提供开箱即用的音色库,无需外部账号。所有自带提供商需开通相应服务账号并获取 API 密钥。各提供商的完整配置说明请参阅各自的子页面。
完整 TTS 参数参考,请参阅 Text-to-Speech Configuration