文字转语音配置
本文主要介绍 TTS 模块的配置。
TTS 模块将 LLM 生成的文本回复转换为自然语音,实时交付给用户。依托 TRTC 超低延迟管线(端到端音频延迟低于 300ms),合成语音以最小延迟触达用户。灵活的框架支持选择 TRTC 内置实时 TTS(精选音色库)或通过
TTSConfig 对象接入第三方 TTS 提供商。可用提供商
提供商 | 模型 | 集成方式 | 适用场景 |
flow_01_turbo 等 | 内置 | 最低延迟,无需外部账号 | |
speech-2.8-turbo、speech-2.8-hd 等 | 自带 | 情感丰富的中文音色 | |
Neural voices(400+) | 自带 | 400+ 音色、140+ 语言 | |
sonic-3-2026-01-12、sonic-multilingual 等 | 自带 | 超低延迟、实时流式 | |
eleven_3、eleven_flash_v2_5 等 | 自带 | 最接近人声、语音克隆 | |
Inworld AI 音色 | 自带 | 游戏 NPC、交互式角色 | |
你的模型 | 自带 | 接入自有 TTS 服务 |
内置 vs 自带:
TRTC 内置 TTS 提供开箱即用的音色库,无需外部账号。所有自带提供商需开通相应服务账号并获取 API 密钥。各提供商的完整配置说明请参阅各自的子页面。