Qwen2.5-Omni

支持多模态聊天的端到端模型

2025-03-27

Qwen2.5-Omni
Qwen2.5-Omni是阿里云Qwen团队开发的一款端到端多模态模型,能够理解文本、图像、音频和视频;生成文本和自然流式语音。
Qwen2.5-Omni是阿里云推出的先进多模态AI模型,能够实时处理和生成文本、图像、音频和视频。基于Thinker-Talker架构构建,它在无缝多模态交互方面表现卓越,提供卓越的语音合成、强大的音频理解能力以及在多样化任务中的高性能。该模型支持实时语音和视频聊天,提供自然的流式响应。在语音识别、翻译和多模态推理等基准测试中,它优于同类规模的模型。用户可以自定义语音输出,并通过API或网页界面部署,非常适合动态、交互式应用。Qwen2.5-Omni可在Hugging Face和ModelScope等平台上获取,专为寻求多功能、端到端AI解决方案的开发者设计。
Open Source Artificial Intelligence GitHub Audio