Zyphra Zonos
高度表达的TTS模型,具备高保真声音克隆功能
2025-02-11

Zonos提供对语速、情感、音调和音频质量的灵活控制,以及即时无限的高质量语音克隆。Zonos原生以44Khz生成语音。我们的混合模型是首个开源的SSM混合音频模型。
Zyphra Zonos 是一款前沿的文本转语音(TTS)模型,提供高保真声音克隆和富有表现力的语音生成。它包含两个16亿参数的模型——一个变压器和一个SSM混合模型,均在Apache 2.0许可下发布。Zonos允许精确控制语音速度、音调、情感和音频质量,生成自然的44KHz语音。经过20万小时的多语言数据训练,它在英语方面表现卓越,并支持中文和西班牙语等其他语言。由Mamba2架构驱动的混合模型减少了延迟和内存使用。Zonos可通过API、游乐场和Huggingface访问,以其开源方法和高质量输出推动TTS研究。
Open Source
Artificial Intelligence
GitHub
Audio