Grok-1

释放Grok-1开放权重AI的力量

2024-03-17

Grok-1是由xAI开发的尖端开源权重大语言模型。凭借3140亿参数的庞大规模，它成为目前向公众开放的最强大模型之一。该模型采用混合专家（MoE）架构，具体实现为8个专家组，每个token激活2个专家，从而实现高效可扩展的运算处理。

核心参数配置包括：

架构：64层网络，配备48个查询注意力头与8个键值注意力头
嵌入维度：6144维高密度token表征
分词器：支持131072个独立token的SentencePiece分词系统
高级特性：集成旋转位置编码（RoPE）、支持激活分片和8位量化优化
上下文长度：最大支持8192个token的连续序列

代码库提供了基于JAX的模型加载与运行示例。由于模型规模庞大，运行需要大量GPU资源。当前实现优先保证正确性而非效率（特别是在MoE层），暂未使用定制内核以便于验证。

用户可通过磁力链接或HuggingFace Hub获取模型权重。项目采用Apache 2.0许可证开放源代码与模型权重，适用于各类应用场景与二次开发。

GitHub Repository

Artificial Intelligence Machine Learning Large Language Models Mixture of Experts JAX

Open-Sora

Screenshot-to-Code