Amphion

音频、音乐与语音生成工具包

2024-11-21

Amphion 是一款专为音频、音乐和语音生成设计的高级工具包,旨在推动可复现研究并帮助初级研究者和工程师快速入门。其突出特色之一是对经典模型和架构的可视化呈现,这些可视化资源能有效提升对复杂系统的理解。

核心功能

  • 支持多种生成任务
    • 文本转语音(TTS):支持FastSpeech2、VITS、VALL-E、NaturalSpeech2等模型
    • 语音转换(VC):集成Vevo、FACodec、Noro等零样本转换模型
    • 歌声合成(SVS)与转换(SVC):持续开发支持高质量歌声应用的模型
    • 文本转音频(TTA)与文本转音乐(TTM):包含基于潜扩散模型的文本生成方案
  • 声码器与评估指标:提供多种神经声码器及全面的生成音频质量评估指标
  • 大规模数据集:支持Emilia-Large(超20万小时)等数据集及野生数据预处理流程
  • 可视化工具:内置SingVisio等工具,可展示歌声转换中的扩散模型原理

近期更新

  • Vevo1.5:实现语音与歌声的统一可控生成(2025年)
  • Metis:语音统一生成基础模型(2025年)
  • Emilia-Large数据集:整合Emilia与Emilia-YODAS的超20万小时数据集(2025年)

安装与使用

支持通过Conda或Docker安装,提供TTS、VC、SVC等任务的详细操作指南。该工具包采用MIT开源协议,研究及商业用途均可免费使用。

贡献与引用

Amphion欢迎社区贡献,其技术报告及相关成果已被ICLR 2025、IEEE SLT 2024等会议收录并多次引用。

Audio Generation Speech Synthesis Voice Conversion Text-to-Speech Music Generation