Amphion

音频、音乐与语音生成工具包

2024-11-21

Amphion 是一款专为音频、音乐和语音生成设计的高级工具包，旨在推动可复现研究并帮助初级研究者和工程师快速入门。其突出特色之一是对经典模型和架构的可视化呈现，这些可视化资源能有效提升对复杂系统的理解。

核心功能

支持多种生成任务：
- 文本转语音(TTS)：支持FastSpeech2、VITS、VALL-E、NaturalSpeech2等模型
- 语音转换(VC)：集成Vevo、FACodec、Noro等零样本转换模型
- 歌声合成(SVS)与转换(SVC)：持续开发支持高质量歌声应用的模型
- 文本转音频(TTA)与文本转音乐(TTM)：包含基于潜扩散模型的文本生成方案
声码器与评估指标：提供多种神经声码器及全面的生成音频质量评估指标
大规模数据集：支持Emilia-Large（超20万小时）等数据集及野生数据预处理流程
可视化工具：内置SingVisio等工具，可展示歌声转换中的扩散模型原理

近期更新

Vevo1.5：实现语音与歌声的统一可控生成（2025年）
Metis：语音统一生成基础模型（2025年）
Emilia-Large数据集：整合Emilia与Emilia-YODAS的超20万小时数据集（2025年）

安装与使用

支持通过Conda或Docker安装，提供TTS、VC、SVC等任务的详细操作指南。该工具包采用MIT开源协议，研究及商业用途均可免费使用。

贡献与引用

Amphion欢迎社区贡献，其技术报告及相关成果已被ICLR 2025、IEEE SLT 2024等会议收录并多次引用。

GitHub Repository

Audio Generation Speech Synthesis Voice Conversion Text-to-Speech Music Generation

AISuite

TinyTroupe