MARS5 TTS

开源、极具韵律的文本转语音模型

2024-06-14

MARS5 TTS
MARS5是一个开源TTS模型,能在140多种语言中复现表现(仅需2-3秒的音频参考),即便是体育解说、电影、动漫等极其复杂的韵律场景也不在话下。立即加入我们的Discord https://discord.gg/4GVdQ28cZC!
MARS5 TTS 是一个开源的文本转语音模型,旨在以出色的韵律复现140多种语言的语音表现。它在体育解说、电影和动漫等挑战性场景中表现卓越,仅需2-3秒的音频参考。该模型采用了两阶段AR-NAR流程,能够以极少的输入实现高质量的语音合成。用户可以通过标点符号和大写来引导韵律,并通过提供参考文本实现“深度克隆”以获得更好的效果。MARS5支持快速浅克隆以获取即时结果,或进行更深层次、高质量的克隆以获得细腻的输出。通过pip和Docker的简易安装,它适用于各种应用场景。CAMB.AI持续优化模型,欢迎贡献以提升稳定性、速度和性能。加入Discord社区,探索其潜力。
Software Engineering Artificial Intelligence GitHub Data Science