Kyutai TTS

实时AI应用的声音

2025-07-06

Kyutai TTS
Kyutai TTS 是一款专为实时使用优化的新型开源文本转语音模型。它是首个能够在输出音频的同时输入文本的TTS技术,为LLM应用提供了超低延迟。
Kyutai TTS是一款专为实时应用设计的开源文本转语音模型,通过同时处理文本和音频流,提供超低延迟。与需要预先获取完整文本的传统模型不同,Kyutai TTS一旦接收到首个文本标记就开始生成音频,这使其特别适合与大型语言模型(LLM)集成,尤其是在资源有限或处理长文本的场景中。该模型支持英语和法语,提供高准确度的语音转换,单词错误率低(英语2.82,法语3.29),说话人相似度高(英语77.1%,法语78.7%)。它包括从短样本中进行语音克隆的功能,并输出单词时间戳,以支持实时字幕或中断处理。通过延迟流建模构建,Kyutai TTS支持可扩展的部署,基于Rust的服务器可处理多达32个同时请求。其创新方法为实时TTS性能设立了新标杆。
Artificial Intelligence Audio Development