Feedback

Tencent ASR

本文主要介绍如何在接口中配置腾讯 ASR。
Tencent ASR 是 TRTC 内置的语音识别引擎,原生集成于 TRTC 平台,通过直连 TRTC 实时音频管线实现超低延迟。先进音频处理能力——包括 AI 降噪、回声消除以及可自定义的对话模式——确保在嘈杂环境中也能清晰转录。灵活的引擎框架支持多种模型,覆盖中文、英文、粤语及混合语言场景,全部可通过 STTConfig 字段配置,无需额外服务商账号。对于希望以最快速度集成、无外部依赖的团队来说是理想选择。

使用方式

如需使用 Tencent ASR 作为 STT 引擎,请在 StartAIConversation API 的 STTConfig 字段中传入以下 JSON:
// json — STTConfig
{
"Language": "zh",
"VadSilenceTime": 1000
}
完整腾讯 ASR 参数参考,请参阅 ASR 参数配置指南
内置提供商:
Tencent ASR 是 TRTC 内置的语音识别引擎。与第三方提供商(Azure、Deepgram、Soniox)不同,它不需要 CustomParam 字段——只需配置 STTConfig 顶层字段即可。

参数参考

以下字段属于 STTConfig 的一部分。完整定义请参阅 STTConfig
字段
类型
必填
说明
Language
String
主要语言代码(如 "zh""en")。请参阅 STTConfig
VadSilenceTime
Integer
VAD 静音持续时间(毫秒)。当静音超过此值时,当前语音片段结束。请参阅 STTConfig
下一步:配置 LLM 提供商