MiMo
小米的开源模型,为推理而生
2025-04-30

开源(Apache 2.0协议)的LLM系列,'为推理而生'。经过预训练和强化学习调优的模型(如7B版本),在数学和代码任务上媲美o1-mini。现已发布基础模型、SFT模型及RL模型。
MiMo是小米开发的一系列开源语言模型,特别针对推理任务进行了优化。根据Apache 2.0许可证发布,它包括预训练模型、监督微调(SFT)模型和强化学习(RL)调优模型,其中7B版本在数学和代码性能上与OpenAI的o1-mini相当。
该模型之所以表现出色,是因为它从预训练开始就专注于推理,利用了增强的数据过滤、合成的推理数据以及三阶段训练方法。训练后阶段采用了精选的数学和代码问题,结合基于规则的奖励机制,以优化性能。MiMo还包括基础设施的改进,如无缝推出引擎,加速了RL训练。
可用的模型包括基础版本、SFT和RL调优变体,均托管在Hugging Face上。MiMo证明,较小的模型也能实现与较大模型相当的推理能力,为AI社区提供了宝贵的见解。
该模型之所以表现出色,是因为它从预训练开始就专注于推理,利用了增强的数据过滤、合成的推理数据以及三阶段训练方法。训练后阶段采用了精选的数学和代码问题,结合基于规则的奖励机制,以优化性能。MiMo还包括基础设施的改进,如无缝推出引擎,加速了RL训练。
可用的模型包括基础版本、SFT和RL调优变体,均托管在Hugging Face上。MiMo证明,较小的模型也能实现与较大模型相当的推理能力,为AI社区提供了宝贵的见解。
Open Source
Artificial Intelligence
GitHub