Instella
来自AMD的开放3B语言模型
2025-03-10

Instella,来自AMD,是高性能的3B语言模型。模型权重采用ResearchRAIL许可证,代码采用MIT许可证。在MI300X上进行训练。
由AMD开发的Instella是一系列前沿的、完全开放的30亿参数语言模型,旨在突破AI性能的界限。这些模型在AMD Instinct MI300X GPU上从头开始训练,超越了现有相似大小的开放模型,并与Llama-3.2-3B和Gemma-2-2B等顶级开放权重模型竞争。Instella的多阶段训练管道,利用高质量的数据集和先进技术如FlashAttention-2和完全分片数据并行,确保了卓越的自然语言理解和指令跟随能力。完全开源的Instella发布了模型权重、训练配置、数据集和代码,以促进AI社区内的合作和创新。这标志着在展示AMD硬件实力的同时,推动了开源AI研究的重大步骤。
Open Source
Artificial Intelligence
GitHub