Kyutai TTS

实时AI应用的声音

2025-07-06

Kyutai TTS 是一款专为实时使用优化的新型开源文本转语音模型。它是首个能够在输出音频的同时输入文本的TTS技术，为LLM应用提供了超低延迟。

Kyutai TTS是一款专为实时应用设计的开源文本转语音模型，通过同时处理文本和音频流，提供超低延迟。与需要预先获取完整文本的传统模型不同，Kyutai TTS一旦接收到首个文本标记就开始生成音频，这使其特别适合与大型语言模型（LLM）集成，尤其是在资源有限或处理长文本的场景中。该模型支持英语和法语，提供高准确度的语音转换，单词错误率低（英语2.82，法语3.29），说话人相似度高（英语77.1%，法语78.7%）。它包括从短样本中进行语音克隆的功能，并输出单词时间戳，以支持实时字幕或中断处理。通过延迟流建模构建，Kyutai TTS支持可扩展的部署，基于Rust的服务器可处理多达32个同时请求。其创新方法为实时TTS性能设立了新标杆。

产品网站

Product Hunt

Artificial Intelligence Audio Development

Kyutai TTS

实时AI应用的声音

AI Mindmap Extension

PromptForge