Speech-To-Text Configuration
本文主要介绍如何在 AI 实时对话中配置 STT 模块。
在 AI 实时对话中,STT 模块实时捕获用户的语音流并将其转换为文本,随后发送给 LLM 进行处理。STT 模块依托 TRTC 超低延迟音频管线(端到端音频延迟低于 300ms,全球会话延迟低于 1s)以及先进音频处理能力——AI 降噪、回声消除、可自定义的对话模式——即使在嘈杂环境中也能提供清晰、准确的转录。你可以通过
STTConfig 对象接入 TRTC 内置的腾讯 ASR 或第三方 STT 提供商。可用提供商
提供商 | 模型 | 集成方式 | 适用场景 |
16k_zh_large、16k_zh、16k_en 等 | 内置 | 超低延迟、先进音频处理、灵活的引擎框架 | |
Azure Speech(默认) | 第三方 | 100+ 语言、企业级 SLA | |
nova-3、nova-2 等 | 第三方 | 速度与准确率、成本效益高的英文场景 | |
stt-rt-v4 等 | 第三方 | 多语言、代码切换 |
内置 vs 第三方:
所有提供商共用同一套
STTConfig 结构,包含顶层字段(Language、VadSilenceTime)以及 CustomParam 中的提供商专属配置。各提供商的完整配置说明请参阅各自的子页面。