Qwen2.5-Omni

支持多模态聊天的端到端模型

2025-03-27

Qwen2.5-Omni是阿里云Qwen团队开发的一款端到端多模态模型，能够理解文本、图像、音频和视频；生成文本和自然流式语音。

Qwen2.5-Omni是阿里云推出的先进多模态AI模型，能够实时处理和生成文本、图像、音频和视频。基于Thinker-Talker架构构建，它在无缝多模态交互方面表现卓越，提供卓越的语音合成、强大的音频理解能力以及在多样化任务中的高性能。该模型支持实时语音和视频聊天，提供自然的流式响应。在语音识别、翻译和多模态推理等基准测试中，它优于同类规模的模型。用户可以自定义语音输出，并通过API或网页界面部署，非常适合动态、交互式应用。Qwen2.5-Omni可在Hugging Face和ModelScope等平台上获取，专为寻求多功能、端到端AI解决方案的开发者设计。

产品网站

Product Hunt

Open Source Artificial Intelligence GitHub Audio

Qwen2.5-Omni

支持多模态聊天的端到端模型

Mureka O1

EmemeAI