Magma
多模态AI代理的基础模型
2025-02-27

Magma,微软研究的旗舰项目,是有史以来第一个为多模态AI代理设计的基础模型,旨在处理虚拟和现实环境中的复杂交互。
由微软研究院开发的Magma,是一款开创性的多模态AI代理基础模型,能够处理虚拟和现实环境中的复杂交互。它通过共享的视觉编码器和大型语言模型(LLM)整合文本、图像和视频,实现统一的行动基础和规划。Magma在机器人操控、UI导航和视频理解等任务中表现出色,在零样本和少样本评估中超越了现有最先进的模型。其创新的标记集(SoM)和标记追踪(ToM)技术增强了空间推理、行动预测和时间动态理解。凭借强大的跨领域能力,Magma在从游戏策略到真实机器人任务的实际应用中展示了卓越的性能,使其成为多模态AI开发的多功能强大工具。
Open Source
Artificial Intelligence
Bots