Fish-Speech

基于大语言模型的Advanced Multilingual Text-to-Speech技术

2024-07-07

Fish-Speech 是一款基于大语言模型的尖端文本转语音（TTS）系统，具备以下独特功能：

零样本/少样本合成：仅需10-30秒声音样本即可生成高质量语音，实现即时声音克隆
多语言支持：无缝处理英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语，无需额外语言配置
端到端架构：不同于传统三阶段系统（ASR+LLM+TTS），Fish-Speech 原生集成所有组件，性能更优且更简洁
情感语音：可生成带有情感变化的语音，使合成声音更自然生动
音色控制：用户可通过参考音频调整语音特征，实现个性化输出

技术亮点包括：

极低错误率（英语CER/WER约2%）
快速推理速度（RTX 4060显卡达1:5实时率）
支持WebUI（Gradio）和原生GUI（PyQt6）等多种部署方式
跨平台支持Linux、Windows和macOS系统

该项目已发表arXiv论文，代码采用Apache协议开源，模型权重使用CC-BY-NC-SA-4.0许可。目前为早期测试版本，欢迎社区贡献以提升推理速度并修复问题。

GitHub Repository

Text-to-Speech Voice Cloning Multilingual Support Artificial Intelligence Speech Synthesis

MindsDB

GraphRAG Accelerator