ChatTTS是一款专为对话场景(如LLM助手)优化的前沿文本转语音(TTS)模型。它擅长生成自然生动的情感语音,是对话式应用的理想选择。该模型支持中英文等多语种,未来还将扩展更多语言支持。
核心特性:
- 对话式合成:针对对话任务优化,实现交互式自然语音合成
- 精细控制:可预测并控制笑声、停顿、语气词等韵律特征,增强表现力
- 多角色支持:支持不同说话人配置的对话场景
- 优质韵律:韵律表现超越多数开源TTS模型,提供预训练模型供研发使用
技术亮点:
- 基于超10万小时中英文音频数据训练
- 开源版本包含4万小时无监督微调(SFT)的预训练模型
- 支持流式音频生成与多情感控制
- 内置DVAE编码器及零样本推理代码,适用于高级场景
伦理规范:
ChatTTS采用代码AGPLv3+/模型CC BY-NC 4.0协议,限定学术研究用途。为防止滥用,4万小时模型特意保留高频噪声并采用MP3压缩音质。未来还将开源检测模型。
安装使用:
- 通过PyPI安装(
pip install ChatTTS
)或GitHub直接获取 - 需要Python 3.11及
torchaudio
、safetensors
等依赖项 - 提供Web界面和命令行示例,含韵律特征微调详细指南
性能表现:
- 生成30秒音频需至少4GB显存
- 4090显卡实时率(RTF)约0.3,每秒生成约7个语义token
社区支持:
- 加入讨论组获取最新动态
- 欢迎通过GitHub提交issue/PR参与贡献
- 正式合作咨询请联系
open-source@2noise.com
ChatTTS融合bark
、XTTSv2
、valle
等项目技术优势,提供强大且负责任的语音合成工具。