OpenVoice

多功能即时语音克隆

2024-01-01

OpenVoice是一项前沿的AI语音克隆技术,提供多功能的高质量语音合成能力。根据其研究论文所述,OpenVoice在三大核心领域表现卓越:

  1. 精准音色克隆:能精确复刻参考音色,并支持多种语言和口音的语音生成
  2. 灵活声线风格控制:用户可精细调节包括情感、口音、节奏、停顿和语调在内的声音风格
  3. 零样本跨语言语音克隆:支持训练数据集中未包含的语言,展现极强适应能力

2024年4月推出的OpenVoice V2版本在原有基础上实现了音质提升,新增原生多语言支持(英语、西班牙语、法语、中文、日语、韩语),并根据MIT许可协议开放免费商用。自2023年5月起,该技术已成为MyShell.ai即时语音克隆功能的核心组件,全球使用量已突破数百万次。这项由麻省理工与清华大学研究人员联合开发的技术,基于TTS、VITS和VITS2等优秀项目构建,堪称AI语音技术协同创新的典范。

Artificial Intelligence Voice Cloning Text-to-Speech Multilingual Speech Synthesis