VoiceCraft

前沿的语音编辑技术与真实场景下的零样本文本转语音

2024-04-03

VoiceCraft 是一款先进的神经编解码语言模型，专为语音编辑和零样本文本转语音（TTS）应用设计。它在有声书、网络视频和播客等多样化真实音频数据上实现了顶尖性能，仅需几秒参考音频即可克隆或编辑陌生音色，具备极强的场景适应性。

核心特性：

高灵活度：支持 Google Colab、Docker 和独立脚本等多种推理方式
增强模型：提供 330M/830M 参数的 TTS 增强模型以获得更优效果
开箱即用：HuggingFace Spaces 提供 Gradio 交互界面，并配备详细 Colab 教程便于快速测试
训练支持：包含完整指南帮助用户训练和微调自定义数据集

应用场景：

语音编辑：精准修改现有录音内容
零样本 TTS：无需目标音色预训练即可从文本生成自然语音
长文本模式：高效处理 TTS 应用中的大篇幅文本

技术亮点：

采用 Encodec 进行音频编码，结合 音素转换 技术处理文本
支持自定义数据集，提供从数据准备到模型训练的详细流程
兼容 CUDA 加速显卡 以提升性能表现

许可协议：

代码库：CC BY-NC-SA 4.0
模型权重：Coqui 公共模型许可 1.0.0

VoiceCraft 为从事语音合成与编辑的开发者和研究者提供了强大工具，既具备前沿性能，又拥有友好易用的交互界面。

GitHub Repository

Artificial Intelligence Voice Cloning Text-to-Speech Speech Editing Neural Codec

Mojo

MoneyPrinterTurbo