Speech-To-Text Configuration

本文主要介绍如何在 AI 实时对话中配置 STT 模块。
在 AI 实时对话中,STT 模块实时捕获用户的语音流并将其转换为文本,随后发送给 LLM 进行处理。STT 模块依托 TRTC 超低延迟音频管线(端到端音频延迟低于 300ms,全球会话延迟低于 1s)以及先进音频处理能力——AI 降噪、回声消除、可自定义的对话模式——即使在嘈杂环境中也能提供清晰、准确的转录。你可以通过 STTConfig 对象接入 TRTC 内置的腾讯 ASR 或第三方 STT 提供商。

可用提供商

提供商
模型
集成方式
适用场景
16k_zh_large、16k_zh、16k_en 等
内置
超低延迟、先进音频处理、灵活的引擎框架
Azure STT
Azure Speech(默认)
第三方
100+ 语言、企业级 SLA
Deepgram
nova-3、nova-2 等
第三方
速度与准确率、成本效益高的英文场景
Soniox
stt-rt-v4 等
第三方
多语言、代码切换
内置 vs 第三方:
所有提供商共用同一套 STTConfig 结构,包含顶层字段(LanguageVadSilenceTime)以及 CustomParam 中的提供商专属配置。各提供商的完整配置说明请参阅各自的子页面。
完整 STT 参数参考,请参阅 STT 配置指南