{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 科技快讯 > 正文

GPT-4也难逃反转诅咒!大模型推理缺陷:知A是B推不出B是A

来源:快科技    时间:2023-09-23 17:05:52

  9月23日,大模型明知道“你妈是你妈”,却答不出“你是你妈的儿子”??

  这么一项新研究,刚一发表就引燃了全场讨论。

GPT-4也难逃“反转诅咒”!大模型存在推理缺陷:知“A是B”推不出“B是A”

  来自范德堡大学、萨塞克斯大学、牛津大学等研究机构的研究人员惊讶地发现:

  一个大语言模型在训练时被喂进了“A是B”这种形式的数据,它并不会自动反推出“B是A”。大模型存在“反转诅咒”现象。

  甚至强如GPT-4,在反向问题实验中,正确率也只有33%。

  OpenAI创始成员Andrej Karpathy第一时间转发了这篇论文,并评论说:

  LLM知识比人们想象中“零散”得多,我对此仍然没有很好的直觉。

GPT-4也难逃“反转诅咒”!大模型存在推理缺陷:知“A是B”推不出“B是A”

  这具体是怎么一回事?

  大模型的“反转诅咒”

  研究人员主要进行了两项实验。

  在第一项实验中,研究人员在GPT-4的帮助下构建了以下形式的数据,来微调大模型。

  is.(或者反过来)

  所有这些名字都是虚构的,以避免大模型在训练过程中见过他们。

GPT-4也难逃“反转诅咒”!大模型存在推理缺陷:知“A是B”推不出“B是A”

  在GPT-3-175B上的实验结果显示,当提示与数据集给出的描述顺序匹配时,模型给出的答案很不错。

  但当顺序反转过来,模型的准确率甚至直接降到了0。

GPT-4也难逃“反转诅咒”!大模型存在推理缺陷:知“A是B”推不出“B是A”

  举个例子,就是大模型吃到过“达芙妮是《时光之旅》的导演”这么一条数据,你问它“达芙妮是谁”时,它也答得好好的。但当你反过来问“谁是《时光之旅》的导演”时,模型就懵了。

  在GPT-3-350M和Llama-7B上,研究人员也得到了相同的实验结果。

GPT-4也难逃“反转诅咒”!大模型存在推理缺陷:知“A是B”推不出“B是A”

  再来看实验2。在这项实验中,研究人员在不进行任何微调的情况下,测试了大语言模型对真实名人信息的反向处理能力。

  他们从IMDB(2023)收集了最受欢迎的1000位名人的名单,并通过OpenAI API来问GPT-4有关这些人父母的信息,最终得到了1573对名人孩子-父母对数据。

  结果发现,如果问题像这样——“汤姆·克鲁斯的妈妈叫什么”,GPT-4回答准确率为79%。但当问题反转,变成“Mary Lee Pfeiffer(阿汤哥的老妈)的儿子叫什么”,GPT-4回答准确率就降到了33%。

GPT-4也难逃“反转诅咒”!大模型存在推理缺陷:知“A是B”推不出“B是A”

  在Llama-1家族模型上,研究人员也进行了同样的测试。实验中,所有模型回答“父母是谁”问题的准确率,都要远高于回答“孩子是谁”问题的准确率。

GPT-4也难逃“反转诅咒”!大模型存在推理缺陷:知“A是B”推不出“B是A”

  研究人员将这种现象命名为“反转诅咒”。他们认为,这揭示了语言模型在推理和泛化方面的异类进本局限。

  论文通讯作者、牛津大学研究员Owain Evans解释说:

  为什么反转诅咒值得关注?

  这说明大语言模型在训练过程中存在推理能力缺失。

  “A是B”和“B是A”的共现是预训练集中的一种系统性模式。自回归LLM完全无法对这一模式进行元学习,其对数概率没有变化,并且即使参数量从350M扩增到175B,也未能改善这个问题。

  One More Thing

  不过话说回来,人类是不是也会受“反转诅咒”影响呢?

  有网友做了这么个测试。

  面对“Mary Lee Pfeiffer South的儿子是谁”这个问题,GPT-4一开始直接举旗投降了。

  但当这位网友提示它“她的儿子很有名,你肯定认识”后,GPT-4当场开悟,给出了“汤姆·克鲁斯”这个正确答案。

GPT-4也难逃“反转诅咒”!大模型存在推理缺陷:知“A是B”推不出“B是A”

△X网友@TonyZador

  那么,你能反应过来吗?

  参考链接:

  [1]https://owainevans.github.io/reversal_curse.pdf

  [2]https://twitter.com/owainevans_uk/status/1705285631520407821

  [3]https://twitter.com/karpathy/status/1705322159588208782

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
GPT-4也难逃反转诅咒!大模型推理缺陷:知A是B推不出B是A

GPT-4也难逃反转诅咒!大模型推理缺陷:知A是B推不出B是A

  9月23日,大模型明知道你妈是你妈,却答不出你是你妈的儿子??  这么一项新研究,刚一发表就引燃了全场讨论。  来自范德堡大学、
2023-09-23
阿维塔11单次充电爬坡535公里:华为ADS就是强,全程无接管

阿维塔11单次充电爬坡535公里:华为ADS就是强,全程无接管

  9月23日,近日阿维塔11自重庆启程,开启NCA智驾系统,在全程高速行驶且海拔急剧攀升的工况下,一箱电、零接管顺利到达康定,全程535公
2023-09-23
吉利雷达RD6纯电皮卡科创版上市:飞无人机打农药更方便了

吉利雷达RD6纯电皮卡科创版上市:飞无人机打农药更方便了

  9月23日,近日,吉利旗下全新子品牌雷达汽车RD6纯电皮卡科创版车型正式上市,新车共推出1款配置车型,售价为15 38万元。  与此同时,
2023-09-23
新款奔驰smart精灵#1上市:共推两款车型,19.99万元起

新款奔驰smart精灵#1上市:共推两款车型,19.99万元起

  9月23日,近日,2024款smart精灵 1正式上市,共推两款车型,售价19 99-22 59万元,官方也公布了该车的上市权益,具体可看图片。  官
2023-09-23
华为Mate X3全版本/全配色开放现货:与发售原价一样,256GB版售价12999元

华为Mate X3全版本/全配色开放现货:与发售原价一样,256GB版售价12999元

  9月23日,华为Mate X5新一代折叠屏前不久已经开售,不过新品非常抢手,很多心仪的朋友参与多轮抢购依然落空。  现在华为提供了一个
2023-09-23
iPhone 15上手评测:机身尺寸变化不大,全新的融色玻璃工艺

iPhone 15上手评测:机身尺寸变化不大,全新的融色玻璃工艺

  9月23日,今天,iPhone 15系列正式开售了,我们也在第一时间入手了这次的新机,进行了快速的上手体验,现在来和大家分享一下我们的使
2023-09-23
价格非常亲民,固态硬盘4K读写重要么?

价格非常亲民,固态硬盘4K读写重要么?

  9月23日,如今,固态硬盘价格已经非常亲民,甚至一些杂牌固态价格比传统的机械硬盘还要便宜。  但购买如果你只关注3000MB s、7000MB
2023-09-23
中国火车票单日销量再创历史新高,2695.2万张

中国火车票单日销量再创历史新高,2695.2万张

  9月23日,中国铁路9月22日售票量达到2695 2万张,再创单日售票量历史新高。  9月13日至22日,铁路已累计发售车票1 99亿张。  铁路
2023-09-23
iOS版迅雷下载功能回归:新增视频空间,帮你自动分类、整合视频

iOS版迅雷下载功能回归:新增视频空间,帮你自动分类、整合视频

  9月23日,迅雷宣布,iOS版迅雷下载功能已经回归,现支持添加链接一键下载到本地!  此外还新增视频空间,帮你自动分类、整合视频,大
2023-09-23
索尼发布六枚“纽扣”:官方Raynos酱形象,支持VRM模型导入

索尼发布六枚“纽扣”:官方Raynos酱形象,支持VRM模型导入

  9月23日,索尼发布便携动作捕捉产品mocopi,将于10月上旬上市销售,建议零售价2499元。  mocopi由六个小巧轻便的传感器搭配专用mocop
2023-09-23

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com