{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 科技快讯 > 正文

从文字模型到世界模型 Meta新研究让AI Agent理解物理世界

来源:互联网    时间:2024-04-19 10:22:07

  Meta新发布的开放词汇体验问答(OpenEQA)基准,旨在衡量AI Agent对物理空间的理解能力,但目前AI Agent的水平还是无法与人类媲美。

  LLM已经可以理解文本和图片了,也能够根据它们的历史知识回答各种问题,但它们或许对周围世界当前发生的事情一无所知。

  现在LLMs也开始逐步学习理解3D物理空间,通过增强LLMs的「看到」世界的能力,人们可以开发新的应用,在更多场景去获取LLMs的帮助。

  AI Agent,比如机器人或是智能眼镜,它们可以通过感知和理解环境来回答一些开放性问题,比如「我把钥匙放哪里了?」

  这样的AI Agent需要利用视觉等感知模式来理解其周围环境,并能够用清晰的日常语言有效地与人交流。

  这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。

  这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。

  Meta的新研究OpenEQA(Embodied Question Answering)框架,即开放词汇体验问答框架,为我们探索这个领域提供了新的可能。

  01 EQA是什么?

  EQA(Embodied Question Answering)是一种工具,用于检查AI Agent是否真正理解周围世界发生的事情。

  毕竟,当我们想要确定一个人对概念的理解程度时,我们会问他们问题,并根据他们的答案形成评估。我们也可以对实体AI Agent做同样的事情。

  比如下图的一些问题实例:

  [物体识别]

  问:椅子上的红色物体是什么?

  答:一个背包

  [属性识别]

  问:在所有的椅子中,这把椅子的独特颜色是什么?

  答:绿色

  [空间理解]

  问:这个房间可以容纳10个人吗?

  答:可以

  [物体状态识别]

  问:塑料水瓶是开着的吗?

  答:不是

  [功能推理]

  问:我可以用铅笔在什么东西上写?

  答:纸

  [世界知识]

  问:最近有学生在这里吗?

  答:有

  [物体定位]

  问:我的未喝完的星巴克饮料在哪里?

  答:在靠前的白板旁边的桌子上

  除此之外,EQA也更加有直接的应用。

  比如,当你准备出门却找不到工卡时,就就可以问智能眼镜它在哪里。 而 AI Agent则 会通过 利用其情节记忆回答说徽章在餐桌上。

  或者如果你在回家的路上饿了,就可以问家庭机器人是否还剩下水果。 根据其对环境的主动探索,它可能会回答说水果篮里有成熟的香蕉。

  这些行为看上去很简单,毕竟LLMs在许多人认为具有挑战性的任务中表现出色,比如通过SAT或律师考试。

  但现实是,即使是今天最先进的模型,在EQA方面也很难达到人类的表现水平。

  这也是为什么Meta同时发布了OpenEQA基准测试,让研究人员可以测试他们自己的模型,并了解它们与人类的表现相比如何。

  02 OpenEQA:面向AI Agent的全新基准

  开放词汇体验问答(OpenEQA)框架是一个新的基准测试,通过向AI Agent提出开放词汇问题来衡量其对环境的理解。

  该基准包含超过1600个非模板化的问题和答案对,这些问题和答案来自人类注释者,代表了真实世界的使用情况,并提供了180多个物理环境的视频和扫描指针。

  OpenEQA包含两个任务:

  (1)情节记忆EQA,在这个任务中,一个实体的AI Agent根据其对过去经历的回忆回答问题。

  (2)主动EQA,在这个任务中,AI Agent必须在环境中采取行动来收集必要的信息并回答问题。

  OpenEQA还配备了LLM-Match,这是一种用于评分开放词汇答案的自动评估指标。

  下方是LLM-Match打分的流程,通过问题和场景的输入,AI大模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。

  03 现阶段VLM的表现

  一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。

  研究员使用OpenEQA来评估了几种最先进的VLM,发现即使是性能最好的模型(如GPT-4V达到48.5%),与人类的表现(85.9%)之间也存在着显著差距。

  值得注意的是,对于需要空间理解的问题,即使是最好的VLM也几乎是「盲目」的,即它们的表现几乎不比仅文本模型更好。

  例如,对于「我坐在客厅的沙发上看电视。我的身后是哪个房间?」这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。

  这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。

  这也说明,AI Agent在目前这个阶段,还达不到能完全理解物理世界的能力。

  但气馁还为时过早,OpenEQA仅仅是第一个开放词汇的EQA基准。

  通过OpenEQA将具有挑战性的开放词汇问题与以自然语言回答的能力结合起来,可以激发更多的研究,帮助AI理解并交流关于它所看到的世界的信息,也有助于研究人员跟踪多模态学习和场景理解的未来进展。

  也不是没有可能,突然哪天AI Agent又给我们带来一个大惊喜呢?

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
华为回应智驾遥遥领先:起点就瞄准L4 最终实现无人驾驶

华为回应智驾遥遥领先:起点就瞄准L4 最终实现无人驾驶

  4月19日消息,在第21届华为分析师大会上,华为副董事长、轮值董事长徐直军发表了题为《全面智能化之路》的主题演讲。  徐直军提到,
2024-04-19
摄影界的ChatGPT来了!百度网盘推出AI摄影创意工具超能画布

摄影界的ChatGPT来了!百度网盘推出AI摄影创意工具超能画布

  一个文字指令,AI自动修出影视级大片;一个摄影师,也能自成一个线上影楼。在大模型等人工智能技术的发展之下,人像摄影行业终于迎来了
2024-04-19
阿里元境通过实时云渲染技术引领传统行业数字化浪潮

阿里元境通过实时云渲染技术引领传统行业数字化浪潮

  随着移动互联网的迅猛发展,Z世代正逐渐崛起成为市场的主力消费人群。他们追求数字化、沉浸式、AI以及去中心化等新消费内容,这无疑为
2024-04-19
阿里元境通过实时云渲染技术引领传统行业数字化浪潮

阿里元境通过实时云渲染技术引领传统行业数字化浪潮

  随着移动互联网的迅猛发展,Z世代正逐渐崛起成为市场的主力消费人群。他们追求数字化、沉浸式、AI以及去中心化等新消费内容,这无疑为
2024-04-19
入选高工人形机器人优质企业链 银牛微电子3D空间计算解决方案获高度认可

入选高工人形机器人优质企业链 银牛微电子3D空间计算解决方案获高度认可

  由高工移动机器人、高工机器人产业研究所(GGII)主办的2024中国人形机器人技术应用峰会在上海正式举行,该峰会以智造新锐 · 蓄势待发
2024-04-19
台积电ADR重挫近5%! AI芯片独看好威盛!

台积电ADR重挫近5%! AI芯片独看好威盛!

  今晨美股收盘涨跌不一,台积电法说会市场解读为利空,股价跌近5%,FED的官员认为今年仍有& 39;升息& 39;的可能,美国债指标利率升至4 6
2024-04-19
电动车哭哭! 调查显示:美、德、日韩及东南亚重回燃油车比例显著成长

电动车哭哭! 调查显示:美、德、日韩及东南亚重回燃油车比例显著成长

  勤业众信18日发布《2024全球消费者用车行为趋势》报告,结果显示美国、东南亚、德国、韩国和日本的受访民众,选择重回传统燃油车的比例
2024-04-19
M31 5纳米IP完成硅验证 助力全球AI应用

M31 5纳米IP完成硅验证 助力全球AI应用

  硅智财供应商M31 18日宣布,5纳米先进制程的高速接口IP MIPI C D-PHY和内存接口ONFI v5 1 I O,均已完成硅验证,USB4 PHY IP也
2024-04-19
双降!半导体、晶圆代工产业年增率预估下修 今年车用业绩转衰退

双降!半导体、晶圆代工产业年增率预估下修 今年车用业绩转衰退

  晶圆代工龙头台积电今日召开法说会,总裁魏哲家表示,此次与三个月前相比,部分产业复苏速度低于预期,因此调降整体半导体产业营收年增
2024-04-19

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com