{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 科技快讯 > 正文

多模态模型学会打扑克:表现超越GPT-4v 全新强化学习框架是关键

来源:互联网    时间:2024-06-05 10:18:46

  只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策!

  这种方法得到的模型,已经学会了看图玩扑克、算“12点”等任务,表现甚至超越了GPT-4v。

  这是来自UC伯克利等高校最新提出的微调方法,研究阵容也是相当豪华:

  图灵奖三巨头之一、Meta首席AI科学家、纽约大学教授LeCun

  UC伯克利大牛、ALOHA团队成员Sergry Levine

  ResNeXt一作、Sora基础技术DiT作者谢赛宁

  香港大学数据科学学院院长、UC伯克利教授马毅

  该方法名为RL4VLM,论文预印本已经上线,相关代码也已在GitHub中开源。

  RL4VLM提出了一种新的算法框架,直接使用强化学习方法对多模态大模型进行微调。

  其中奖励信息直接来源于环境当中,摆脱了RLHF中对于人类反馈的需要,从而直接赋予了多模态模型决策能力。

  对于RL4VLM的意义,参与了这项工作的马毅教授这样说:

  一方面希望大家对模型真实性能有更客观清醒的认识;另一方面,也希望能建立一个平台,支持探索如何进一步提升模型性能。

  那么,用这种方法微调出来的多模态大模型,都能让智能体学会哪些能力呢?

  多模态决策能力超GPT-4v

  为了评估训练出的多模态大模型给智能体带来的能力,作者一共使用了两类物种评测任务:

  第一类任务(a-d) 主要考验模型利用图像中的细粒度视觉信息做决策的能力,包括对于数字的识别能力和利用识别的数字进行逻辑推理的能力

  第二类任务(e)主要考察多模态大模型在具身智能环境中的视觉语义推理能力。

  具体来说,这五个任务分别是:

  a.数轴(Numberline):模型需要通过输出“+” 或者 “-”,将当前数字移动到目标数字

  b.简易12点(EZPoint):模型需要识别两张牌,并用加号和乘号运算“12点”

  c.24点(Point24): 模型需要识别四张牌,并用加减乘除和括号运算“24点”

  d.21点(Blackjack):模型需要通过牌面上的信息来决定“要牌”或者“停牌”

  e.ALFWorld:一个标准具身智能环境

  其中任务a-d为作者的原创任务,任务e的ALFWorld是微软等于2020年提出的开源具身智能任务集。

  实验结果表明,直接使用强化学习微调7B的多模态模型之后,能使其在两类决策问题上的表现超过商用模型GPT-4v Gemini,同时也能超过传统的监督微调(SFT)方法。

  而在ALFWorld的具身智能任务中,作者的模型也取得了最高的平均分,特别是在单物体拾取任务上表现尤为突出。

  先生成思维链,再做决策

  这套VLM智能体主要解决的是需要视觉识别和语言理解的任务,它的工作流程是这样的:

  首先,对于每一个任务,系统会直接将该任务的当前状态,以图片和文字描述的形式输入多模态大模型,并要求模型输出一段思维链之后,再以文字形式输出要执行的动作。

  最后将,动作信息会被输入进对应的环境并获得奖励值,该奖励值会被用来进行强化学习训练。

  例如下图中,智能体在执行玩21点的任务时,系统直接要求多模态模型根据目前的状态,在输出思维链之后选择“停牌” (stand)或者“拿牌”(hit),然后直接将对应的动作输入到环境中,得到奖励函数值以及下一个状态。

  为了能用直接将强化学习运用到多模态模型的训练中,需要对模型的输入和输出做一些调整,以适应RL训练框架中。

  具体来说,作者将任务图像o和任务描述的文本v-in合并后,直接作为当前任务的状态s,即:

  s = [o, v-in]

  在获得了多模态模型的文字输出v-out以后,该框架直接将其中文字形式的动作(“action: {act}”) 转化为可与环境交互的动作指令a。

  接下来把a输入到环境当中,就能获得奖励函数r,以及操作后的下一个状态。

  在获得了来自环境的奖励函数r之后,文章利用PPO直接对整个多模态模型进行微调。

  而从提示词上看,这项研究采取了如下的提示过程作为多模态模型的输入,并且给出了期望的输出形式:

  (其中蓝色的部分是让模型生成思维链提示过程, 红色的部分是告诉模型以文字形式输出动作a)

  消融实验结果表明,如果这一过程中不采用思维链,则任务成功率会出现大幅下降。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
福特汽车5月销售成长11%

福特汽车5月销售成长11%

  福特汽车公司周二表示,由于SUV、皮卡和混合动力车的需求良好,5月美国汽车销量年增11%。  过去几年,对跨界SUV和皮卡车的需求,让美
2024-06-05
苹果WWDC下周登场 AI料成焦点 估全面整合进硬件设备

苹果WWDC下周登场 AI料成焦点 估全面整合进硬件设备

  苹果全球开发者大会WWDC将由6月10日美东时间下午1点(北京时间11日凌晨1点)的主题演讲揭开序幕。 外界普遍预期,苹果在这次大会上,将
2024-06-05
黄仁勋回应过热/功耗问题:三星供应HBM还差一步

黄仁勋回应过热/功耗问题:三星供应HBM还差一步

  英伟达黄仁勋透露,三星电子的高带宽记忆体距离开始供应还差最后一步。  彭博社4日报导,黄仁勋4日在台北国际电脑展进行简报时对记者
2024-06-05
季辛格臣服台积电技术好 最新处理器由最强对手制造

季辛格臣服台积电技术好 最新处理器由最强对手制造

  英特尔的最新处理器Lunar Lake是一款以小芯片为基础的处理器,其关键芯片是由对手台积电所制造,英特尔CEO季辛格坦言佩服台积电的优秀
2024-06-05
传中国电商巨头Shein本周宣布伦敦IPO计划

传中国电商巨头Shein本周宣布伦敦IPO计划

  外媒援引知情人士消息报导,中国网络快时尚巨头「Shein(希音)」最快将于本周申请伦敦上市,公司市值约为500亿英镑。  综合媒体报道,
2024-06-05
联发科天玑创新AI应用亮相COMPUTEX 2024 全场景生成式AI体验已在眼前!

联发科天玑创新AI应用亮相COMPUTEX 2024 全场景生成式AI体验已在眼前!

  最近,COMPUTEX 2024科技展览开幕,联发科在COMPUTEX展出了众多先进AI技术成果和创新落地的生成式AI应用,吸引大量观众驻足围观。现场
2024-06-05
拼多多、阿里、京东及抖音“厮杀”进行时

拼多多、阿里、京东及抖音“厮杀”进行时

  " 我相信,三年后的电商肯定不是今天最热门的电商 …… 重要的不是今天要赶上谁,而是想一想明天的电商应该如何提升消费体验 ",4
2024-06-05
云巨头掀起组织之变 生成式AI陷入冰火两重天

云巨头掀起组织之变 生成式AI陷入冰火两重天

  在生成式 AI 的浪潮下,在国内云厂商们争相用「降价」掀桌子时,包括亚马逊 AWS、微软 Azure 和谷歌云在内的北美云巨头们却正在通
2024-06-05

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com