ChatTTS

自然流畅的对话式文本转语音

2024-05-26

ChatTTS是一款专为对话场景（如LLM助手）优化的前沿文本转语音（TTS）模型。它擅长生成自然生动的情感语音，是对话式应用的理想选择。该模型支持中英文等多语种，未来还将扩展更多语言支持。

核心特性：

对话式合成：针对对话任务优化，实现交互式自然语音合成
精细控制：可预测并控制笑声、停顿、语气词等韵律特征，增强表现力
多角色支持：支持不同说话人配置的对话场景
优质韵律：韵律表现超越多数开源TTS模型，提供预训练模型供研发使用

技术亮点：

基于超10万小时中英文音频数据训练
开源版本包含4万小时无监督微调（SFT）的预训练模型
支持流式音频生成与多情感控制
内置DVAE编码器及零样本推理代码，适用于高级场景

伦理规范：

ChatTTS采用代码AGPLv3+/模型CC BY-NC 4.0协议，限定学术研究用途。为防止滥用，4万小时模型特意保留高频噪声并采用MP3压缩音质。未来还将开源检测模型。

安装使用：

通过PyPI安装（pip install ChatTTS）或GitHub直接获取
需要Python 3.11及torchaudio、safetensors等依赖项
提供Web界面和命令行示例，含韵律特征微调详细指南

性能表现：

生成30秒音频需至少4GB显存
4090显卡实时率（RTF）约0.3，每秒生成约7个语义token

社区支持：

加入讨论组获取最新动态
欢迎通过GitHub提交issue/PR参与贡献
正式合作咨询请联系open-source@2noise.com

ChatTTS融合bark、XTTSv2、valle等项目技术优势，提供强大且负责任的语音合成工具。

GitHub Repository

Text-to-Speech Conversational AI Generative Models Speech Synthesis Dialogue Systems

Perplexica

Firecrawl