Ferret

随时随地以任意粒度引用和确立任何内容

2024-01-02

苹果推出了一种新型的多模态大语言模型（MLLM），在图像理解和语言处理方面表现出色，特别是在理解空间参考方面展示了显著优势。

Ferret是苹果公司先进的多模态大型语言模型（MLLM），专长于图像理解和语言处理。它擅长空间引用，能够在任何粒度或形状下精确识别和定位图像中的对象。Ferret采用结合离散坐标和连续特征的混合区域表示法，可以处理点、边界框和自由形式形状等多种输入。得益于包含110万样本的GRIT数据集，Ferret在引用和定位任务中表现出色。它还减少了对象幻觉并提高了细节描述，使其成为区域聊天和定位等多模态应用的强大工具。

产品网站

Product Hunt

Open Source Artificial Intelligence GitHub Apple

Ferret

随时随地以任意粒度引用和确立任何内容

Open Love

crewAI