VoiceCraft

前沿的语音编辑技术与真实场景下的零样本文本转语音

2024-04-03

VoiceCraft 是一款先进的神经编解码语言模型,专为语音编辑零样本文本转语音(TTS)应用设计。它在有声书、网络视频和播客等多样化真实音频数据上实现了顶尖性能,仅需几秒参考音频即可克隆或编辑陌生音色,具备极强的场景适应性。

核心特性:

  • 高灵活度:支持 Google Colab、Docker 和独立脚本等多种推理方式
  • 增强模型:提供 330M/830M 参数的 TTS 增强模型以获得更优效果
  • 开箱即用:HuggingFace Spaces 提供 Gradio 交互界面,并配备详细 Colab 教程便于快速测试
  • 训练支持:包含完整指南帮助用户训练和微调自定义数据集

应用场景:

  • 语音编辑:精准修改现有录音内容
  • 零样本 TTS:无需目标音色预训练即可从文本生成自然语音
  • 长文本模式:高效处理 TTS 应用中的大篇幅文本

技术亮点:

  • 采用 Encodec 进行音频编码,结合 音素转换 技术处理文本
  • 支持自定义数据集,提供从数据准备到模型训练的详细流程
  • 兼容 CUDA 加速显卡 以提升性能表现

许可协议:

  • 代码库:CC BY-NC-SA 4.0
  • 模型权重:Coqui 公共模型许可 1.0.0

VoiceCraft 为从事语音合成与编辑的开发者和研究者提供了强大工具,既具备前沿性能,又拥有友好易用的交互界面。

Artificial Intelligence Voice Cloning Text-to-Speech Speech Editing Neural Codec