Kimi K2是由Moonshot AI开发的尖端混合专家(MoE)语言模型。拥有320亿激活参数和惊人的1万亿总参数量,该模型专为前沿知识理解、推理和编程任务而设计。其智能体能力经过精心优化,特别擅长工具使用、自主问题解决和逻辑推理。
核心特性
- 超大规模训练:基于15.5万亿token进行预训练,即使规模庞大仍保持零训练不稳定
- MuonClip优化器:首次在大规模模型中应用Muon优化器,采用创新技术解决扩展过程中的稳定性问题
- 智能体功能:专为工具调用、推理和自主问题解决设计
- 双版本架构:
- Kimi-K2-Base:基础模型,适合需要完全控制权进行微调和定制开发的研究者
- Kimi-K2-Instruct:经过后训练的通用聊天和智能体模型,无需长时思考即可实现反射级响应
模型架构
采用混合专家(MoE)架构,包含1万亿总参数/320亿激活参数,384个专家模块(每token激活8个)。支持128K上下文窗口,配备MLA注意力机制和SwiGLU激活函数。
性能表现
在多项基准测试中表现卓越,包括编程任务(LiveCodeBench/OJBench)、工具使用(Tau2/AceBench)、数学与STEM题目(AIME/MATH-500),同时在MMLU通用知识和IFEval等综合测试中同样出色。
部署方式
支持vLLM/SGLang/KTransformers/TensorRT-LLM等主流推理引擎。通过Moonshot AI平台提供OpenAI/Anthropic兼容API接口,本地部署示例和工具调用功能均有详细文档。
许可协议
代码和模型权重均采用修改版MIT许可证。咨询请联系support@moonshot.cn。