Feedback

Overview

本文主要介绍如何在 AI 实时对话中配置 STT 模块。
在 AI 实时对话中,STT 模块实时捕获用户的语音流并将其转换为文本,随后发送给 LLM 进行处理。STT 模块依托 TRTC 超低延迟音频管线(端到端音频延迟低于 300ms,全球会话延迟低于 1s)以及先进音频处理能力——AI 降噪、回声消除、可自定义的对话模式——即使在嘈杂环境中也能提供清晰、准确的转录。你可以通过 STTConfig 对象接入 TRTC 内置的腾讯 ASR 或第三方 STT 提供商。

可用提供商

提供商
模型
集成方式
适用场景
Tencent
默认
内置
超低延迟、先进音频处理、灵活的引擎框架
Azure
Azure Speech(默认)
第三方
100+ 语言、企业级 SLA
Deepgram
nova-3、nova-2 等
第三方
速度与准确率、成本效益高的英文场景
Soniox
stt-rt-v4 等
第三方
多语言、代码切换
内置 vs 第三方:
所有提供商共用同一套 STTConfig 结构,包含顶层字段(LanguageVadSilenceTime)以及 CustomParam 中的提供商专属配置。各提供商的完整配置说明请参阅各自的子页面。
完整 STT 参数参考,请参阅 STT 配置指南