SmolVLA

可在消费级硬件上运行的强大机器人VLA

2025-06-06

SmolVLA是一款紧凑型（450M）开源视觉-语言-动作模型，专为机器人技术设计。它基于社区数据进行训练，可在消费级硬件上运行，并且性能超越更大的模型。该模型随代码和使用方法一同发布。

SmolVLA是一款紧凑、开源的视觉-语言-动作（VLA）模型，专为机器人技术设计。仅拥有4.5亿参数，它能在消费级硬件如单GPU甚至MacBook上高效运行，同时性能超越更大模型。SmolVLA基于公开可用的社区数据集训练，支持异步推理，相比同步方法响应时间快30%，任务吞吐量翻倍。该模型结合了视觉-语言模型（VLM）和流匹配动作专家，优化了实时控制。关键设计选择——如视觉令牌减少、层跳过和交错注意力——提升了速度和鲁棒性。SmolVLA在仿真和现实世界任务中均表现优异，展现了跨多样环境的强大泛化能力。通过提供易于获取的训练配方和负担得起的硬件兼容性，SmolVLA旨在民主化机器人研究，加速通用机器人代理的进步。

产品网站

Product Hunt

Open Source Robots Artificial Intelligence

SmolVLA

可在消费级硬件上运行的强大机器人VLA

Portraits

3D Studio