ChatTTS

自然流畅的对话式文本转语音

2024-05-26

ChatTTS是一款专为对话场景(如LLM助手)优化的前沿文本转语音(TTS)模型。它擅长生成自然生动的情感语音,是对话式应用的理想选择。该模型支持中英文等多语种,未来还将扩展更多语言支持。

核心特性:

  • 对话式合成:针对对话任务优化,实现交互式自然语音合成
  • 精细控制:可预测并控制笑声、停顿、语气词等韵律特征,增强表现力
  • 多角色支持:支持不同说话人配置的对话场景
  • 优质韵律:韵律表现超越多数开源TTS模型,提供预训练模型供研发使用

技术亮点:

  • 基于超10万小时中英文音频数据训练
  • 开源版本包含4万小时无监督微调(SFT)的预训练模型
  • 支持流式音频生成与多情感控制
  • 内置DVAE编码器及零样本推理代码,适用于高级场景

伦理规范:

ChatTTS采用代码AGPLv3+/模型CC BY-NC 4.0协议,限定学术研究用途。为防止滥用,4万小时模型特意保留高频噪声并采用MP3压缩音质。未来还将开源检测模型。

安装使用:

  • 通过PyPI安装(pip install ChatTTS)或GitHub直接获取
  • 需要Python 3.11及torchaudiosafetensors等依赖项
  • 提供Web界面和命令行示例,含韵律特征微调详细指南

性能表现:

  • 生成30秒音频需至少4GB显存
  • 4090显卡实时率(RTF)约0.3,每秒生成约7个语义token

社区支持:

  • 加入讨论组获取最新动态
  • 欢迎通过GitHub提交issue/PR参与贡献
  • 正式合作咨询请联系open-source@2noise.com

ChatTTS融合barkXTTSv2valle等项目技术优势,提供强大且负责任的语音合成工具。

Text-to-Speech Conversational AI Generative Models Speech Synthesis Dialogue Systems