Fish-Speech

基于大语言模型的Advanced Multilingual Text-to-Speech技术

2024-07-07

Fish-Speech 是一款基于大语言模型的尖端文本转语音(TTS)系统,具备以下独特功能:

  • 零样本/少样本合成:仅需10-30秒声音样本即可生成高质量语音,实现即时声音克隆
  • 多语言支持:无缝处理英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语,无需额外语言配置
  • 端到端架构:不同于传统三阶段系统(ASR+LLM+TTS),Fish-Speech 原生集成所有组件,性能更优且更简洁
  • 情感语音:可生成带有情感变化的语音,使合成声音更自然生动
  • 音色控制:用户可通过参考音频调整语音特征,实现个性化输出

技术亮点包括:

  • 极低错误率(英语CER/WER约2%)
  • 快速推理速度(RTX 4060显卡达1:5实时率)
  • 支持WebUI(Gradio)和原生GUI(PyQt6)等多种部署方式
  • 跨平台支持Linux、Windows和macOS系统

该项目已发表arXiv论文,代码采用Apache协议开源,模型权重使用CC-BY-NC-SA-4.0许可。目前为早期测试版本,欢迎社区贡献以提升推理速度并修复问题。

Text-to-Speech Voice Cloning Multilingual Support Artificial Intelligence Speech Synthesis