SmolVLA

可在消费级硬件上运行的强大机器人VLA

2025-06-06

SmolVLA
SmolVLA是一款紧凑型(450M)开源视觉-语言-动作模型,专为机器人技术设计。它基于社区数据进行训练,可在消费级硬件上运行,并且性能超越更大的模型。该模型随代码和使用方法一同发布。
SmolVLA是一款紧凑、开源的视觉-语言-动作(VLA)模型,专为机器人技术设计。仅拥有4.5亿参数,它能在消费级硬件如单GPU甚至MacBook上高效运行,同时性能超越更大模型。SmolVLA基于公开可用的社区数据集训练,支持异步推理,相比同步方法响应时间快30%,任务吞吐量翻倍。该模型结合了视觉-语言模型(VLM)和流匹配动作专家,优化了实时控制。关键设计选择——如视觉令牌减少、层跳过和交错注意力——提升了速度和鲁棒性。SmolVLA在仿真和现实世界任务中均表现优异,展现了跨多样环境的强大泛化能力。通过提供易于获取的训练配方和负担得起的硬件兼容性,SmolVLA旨在民主化机器人研究,加速通用机器人代理的进步。
Open Source Robots Artificial Intelligence