Voila
用于实时、富有表现力的语音角色扮演的开源AI
2025-05-10

oila是Maitrix.org及其实验室推出的一个开源语音语言模型家族,专注于低延迟、情感丰富的AI语音角色扮演、自动语音识别(ASR)和文本转语音(TTS)技术。
Voila是一个专为实时、富有表现力的语音交互而设计的开源AI家族。由Maitrix.org开发,它支持低延迟、情感丰富的角色扮演、语音识别和文本转语音应用。与传统系统不同,Voila采用端到端架构,实现流畅、动态的对话,响应时间仅195毫秒——比人类的反应速度还要快。该模型结合了大型语言模型的推理能力和先进的声学建模技术,允许用户通过简单的文本指令定义说话者身份和语气。它支持超过百万种预制声音,并能从简短的音频样本中创建自定义声音。Voila还作为语音识别、文本转语音和多语言翻译的统一解决方案。为了推动研究而开源,它旨在通过自然、感知个人身份的语音生成来促进人机交互。
Open Source
Artificial Intelligence
GitHub
Audio