NVLM 1.0
开放前沿级多模态LLMs
2024-10-03

一系列前沿的多模态大语言模型(LLMs),在视觉语言任务上取得了最先进的成果,可与领先的专有模型(如GPT-4o)和开放获取模型(如Llama 3-V 405B和InternVL 2)相媲美。
NVLM 1.0是一个前沿的多模态大语言模型(LLM)系列,专为在视觉语言任务中表现出色而设计,能够匹敌或超越如GPT-4o和Llama 3-V这样的领先专有和开放访问模型。值得注意的是,NVLM 1.0不仅在多模态任务中提供了最先进的性能,而且在多模态训练后还能提高纯文本任务的准确性。该模型的72B变体在OCRBench和VQAv2等基准测试中取得了最高分,在数学、编码和推理等任务中超越了竞争对手。NVLM 1.0是开源的,通过Megatron-Core提供模型权重和训练代码,为社区提供了先进的多模态能力。其创新的架构、动态高分辨率图像处理以及精选的数据集确保了从图像理解到复杂问题解决等多样化应用中的卓越性能。
Open Source
Artificial Intelligence