Kimi-K2

前沿知识、推理与编程的尖端MoE语言模型

2025-07-13

Kimi K2是由Moonshot AI开发的尖端混合专家(MoE)语言模型。拥有320亿激活参数和惊人的1万亿总参数量,该模型专为前沿知识理解、推理和编程任务而设计。其智能体能力经过精心优化,特别擅长工具使用、自主问题解决和逻辑推理。

核心特性

  • 超大规模训练:基于15.5万亿token进行预训练,即使规模庞大仍保持零训练不稳定
  • MuonClip优化器:首次在大规模模型中应用Muon优化器,采用创新技术解决扩展过程中的稳定性问题
  • 智能体功能:专为工具调用、推理和自主问题解决设计
  • 双版本架构
    • Kimi-K2-Base:基础模型,适合需要完全控制权进行微调和定制开发的研究者
    • Kimi-K2-Instruct:经过后训练的通用聊天和智能体模型,无需长时思考即可实现反射级响应

模型架构

采用混合专家(MoE)架构,包含1万亿总参数/320亿激活参数,384个专家模块(每token激活8个)。支持128K上下文窗口,配备MLA注意力机制和SwiGLU激活函数。

性能表现

在多项基准测试中表现卓越,包括编程任务(LiveCodeBench/OJBench)、工具使用(Tau2/AceBench)、数学与STEM题目(AIME/MATH-500),同时在MMLU通用知识和IFEval等综合测试中同样出色。

部署方式

支持vLLM/SGLang/KTransformers/TensorRT-LLM等主流推理引擎。通过Moonshot AI平台提供OpenAI/Anthropic兼容API接口,本地部署示例和工具调用功能均有详细文档。

许可协议

代码和模型权重均采用修改版MIT许可证。咨询请联系support@moonshot.cn。

Artificial Intelligence Language Models Mixture-of-Experts Machine Learning Natural Language Processing