Zyphra Zonos

高度表达的TTS模型，具备高保真声音克隆功能

2025-02-11

Zonos提供对语速、情感、音调和音频质量的灵活控制，以及即时无限的高质量语音克隆。Zonos原生以44Khz生成语音。我们的混合模型是首个开源的SSM混合音频模型。

Zyphra Zonos 是一款前沿的文本转语音（TTS）模型，提供高保真声音克隆和富有表现力的语音生成。它包含两个16亿参数的模型——一个变压器和一个SSM混合模型，均在Apache 2.0许可下发布。Zonos允许精确控制语音速度、音调、情感和音频质量，生成自然的44KHz语音。经过20万小时的多语言数据训练，它在英语方面表现卓越，并支持中文和西班牙语等其他语言。由Mamba2架构驱动的混合模型减少了延迟和内存使用。Zonos可通过API、游乐场和Huggingface访问，以其开源方法和高质量输出推动TTS研究。

产品网站

Product Hunt

Open Source Artificial Intelligence GitHub Audio

Zyphra Zonos

高度表达的TTS模型，具备高保真声音克隆功能

Thoughtflow

One Shot LoRA