Ferret
随时随地以任意粒度引用和确立任何内容
2024-01-02

苹果推出了一种新型的多模态大语言模型(MLLM),在图像理解和语言处理方面表现出色,特别是在理解空间参考方面展示了显著优势。
Ferret是苹果公司先进的多模态大型语言模型(MLLM),专长于图像理解和语言处理。它擅长空间引用,能够在任何粒度或形状下精确识别和定位图像中的对象。Ferret采用结合离散坐标和连续特征的混合区域表示法,可以处理点、边界框和自由形式形状等多种输入。得益于包含110万样本的GRIT数据集,Ferret在引用和定位任务中表现出色。它还减少了对象幻觉并提高了细节描述,使其成为区域聊天和定位等多模态应用的强大工具。
Open Source
Artificial Intelligence
GitHub
Apple