Ferret

随时随地以任意粒度引用和确立任何内容

2024-01-02

Ferret
苹果推出了一种新型的多模态大语言模型(MLLM),在图像理解和语言处理方面表现出色,特别是在理解空间参考方面展示了显著优势。
Ferret是苹果公司先进的多模态大型语言模型(MLLM),专长于图像理解和语言处理。它擅长空间引用,能够在任何粒度或形状下精确识别和定位图像中的对象。Ferret采用结合离散坐标和连续特征的混合区域表示法,可以处理点、边界框和自由形式形状等多种输入。得益于包含110万样本的GRIT数据集,Ferret在引用和定位任务中表现出色。它还减少了对象幻觉并提高了细节描述,使其成为区域聊天和定位等多模态应用的强大工具。
Open Source Artificial Intelligence GitHub Apple