去年 10 月,苹果公司和康奈尔大学的人工智能研究人员悄悄推出了一种名为 Ferret 的开源多模态大型语言模型,据说该模型使用部分图像作为查询。
据 VentureBeat 报道,Ferret 10 月份在 GitHub 上的发布完全没有受到关注,没有发布任何公告。然而,此后它引起了人工智能研究人员的广泛关注。Bart De Witte 经营着一家专注于医学领域开源人工智能的非营利组织,他在 X 上发帖称,Ferret 的发布“巩固了苹果在多模式人工智能领域的领导者地位”。
Ferret 的工作方式是检查图像的特定区域,确定其中可用于响应查询的元素,识别这些元素,并在它们周围绘制边界框。然后,它可以使用识别的元素作为查询的一部分,并以传统方式响应。
例如,如果用户在较大图像中突出显示动物的图像,然后询问法学硕士该动物是什么,它将通过识别该生物是什么物种来响应该查询。然后,它可以使用在图像中检测到的其他元素的上下文来提供进一步的响应或提供有关动物正在做什么的上下文。
苹果 AI 研究科学家 Zhe Gan 在 X 的早期帖子中表示,开源 Ferret 模型是一个可以“以任何粒度参考和分析任何地方的任何事物”的系统。
人工智能研究人员声称,Ferret 的发布很重要,因为它展示了苹果令人惊讶的开放性,这与该公司一贯的神秘性质形成鲜明对比。
然而,开源方法可能适合人工智能行业的苹果公司,因为该公司由于缺乏计算资源而难以与微软公司和谷歌公司等竞争对手竞争。科技博主 Ben Dickson 表示,苹果的基础设施并不是为大规模提供 LLM 服务而设计的,这意味着该公司无法指望与 ChatGPT 等模式竞争。因此,苹果必须选择是与超大规模云合作开展人工智能工作,还是与开源社区分享其工作成果,类似于 Meta Platforms Inc. 采取的方法。