Amphion 是一款专为音频、音乐和语音生成设计的高级工具包,旨在推动可复现研究并帮助初级研究者和工程师快速入门。其突出特色之一是对经典模型和架构的可视化呈现,这些可视化资源能有效提升对复杂系统的理解。
核心功能
- 支持多种生成任务:
- 文本转语音(TTS):支持FastSpeech2、VITS、VALL-E、NaturalSpeech2等模型
- 语音转换(VC):集成Vevo、FACodec、Noro等零样本转换模型
- 歌声合成(SVS)与转换(SVC):持续开发支持高质量歌声应用的模型
- 文本转音频(TTA)与文本转音乐(TTM):包含基于潜扩散模型的文本生成方案
- 声码器与评估指标:提供多种神经声码器及全面的生成音频质量评估指标
- 大规模数据集:支持Emilia-Large(超20万小时)等数据集及野生数据预处理流程
- 可视化工具:内置SingVisio等工具,可展示歌声转换中的扩散模型原理
近期更新
- Vevo1.5:实现语音与歌声的统一可控生成(2025年)
- Metis:语音统一生成基础模型(2025年)
- Emilia-Large数据集:整合Emilia与Emilia-YODAS的超20万小时数据集(2025年)
安装与使用
支持通过Conda或Docker安装,提供TTS、VC、SVC等任务的详细操作指南。该工具包采用MIT开源协议,研究及商业用途均可免费使用。
贡献与引用
Amphion欢迎社区贡献,其技术报告及相关成果已被ICLR 2025、IEEE SLT 2024等会议收录并多次引用。