Grok-1

释放Grok-1开放权重AI的力量

2024-03-17

Grok-1是由xAI开发的尖端开源权重大语言模型。凭借3140亿参数的庞大规模,它成为目前向公众开放的最强大模型之一。该模型采用混合专家(MoE)架构,具体实现为8个专家组,每个token激活2个专家,从而实现高效可扩展的运算处理。

核心参数配置包括:

  • 架构:64层网络,配备48个查询注意力头与8个键值注意力头
  • 嵌入维度:6144维高密度token表征
  • 分词器:支持131072个独立token的SentencePiece分词系统
  • 高级特性:集成旋转位置编码(RoPE)、支持激活分片和8位量化优化
  • 上下文长度:最大支持8192个token的连续序列

代码库提供了基于JAX的模型加载与运行示例。由于模型规模庞大,运行需要大量GPU资源。当前实现优先保证正确性而非效率(特别是在MoE层),暂未使用定制内核以便于验证。

用户可通过磁力链接或HuggingFace Hub获取模型权重。项目采用Apache 2.0许可证开放源代码与模型权重,适用于各类应用场景与二次开发。

Artificial Intelligence Machine Learning Large Language Models Mixture of Experts JAX