Fish-Speech 是一款基于大语言模型的尖端文本转语音(TTS)系统,具备以下独特功能:
- 零样本/少样本合成:仅需10-30秒声音样本即可生成高质量语音,实现即时声音克隆
- 多语言支持:无缝处理英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语,无需额外语言配置
- 端到端架构:不同于传统三阶段系统(ASR+LLM+TTS),Fish-Speech 原生集成所有组件,性能更优且更简洁
- 情感语音:可生成带有情感变化的语音,使合成声音更自然生动
- 音色控制:用户可通过参考音频调整语音特征,实现个性化输出
技术亮点包括:
- 极低错误率(英语CER/WER约2%)
- 快速推理速度(RTX 4060显卡达1:5实时率)
- 支持WebUI(Gradio)和原生GUI(PyQt6)等多种部署方式
- 跨平台支持Linux、Windows和macOS系统
该项目已发表arXiv论文,代码采用Apache协议开源,模型权重使用CC-BY-NC-SA-4.0许可。目前为早期测试版本,欢迎社区贡献以提升推理速度并修复问题。