DeepSeek-VL2
MoE视觉语言,现在更容易访问
2025-02-10

DeepSeek-VL2是开源的多模态视觉语言模型,具备强大的多模态理解能力,由高效的MoE架构驱动。通过新的Hugging Face演示轻松体验。
DeepSeek-VL2 是一个开源的专家混合(MoE)视觉语言模型系列,专为高级多模态理解设计。它在视觉问答、OCR、文档理解和视觉基础等任务中表现卓越。该系列包括 Tiny、Small 和 Standard 三个变体,分别激活了 1.0B、2.8B 和 4.5B 参数,以较少的参数提供了与许多现有模型相竞争的性能。DeepSeek-VL2 支持增量预填充,以提高 GPU 内存使用效率,使其适用于各种研究和商业应用。该模型可在 Hugging Face 上获取,提供用户友好的演示,并授权用于学术和商业用途。
Open Source
Artificial Intelligence
GitHub