${dede:global.cfg_webname/}$

当前位置：首页 > 科技 > 科技快讯 > 正文

谷歌Meta离职团队4个月训出比肩GPT-4大模型清华北航校友参与

来源：互联网时间：2024-04-26 15:08:24

　　由前DeepMind, Google Brain, FAIR出走的大佬共同创立的Reka AI，发布了它们最新的多模态大模型Reka Core，各项能力全面比肩GPT-4!

图源：官网

　　在几项最重要的测试集上，它的能力和GPT-4.Gemini Ultra打得有来有回。

　　而且它能支持3种模态数据的混合输入，目前在主流大模型产品中能做到的只有Gemini，而且它的多模态性能甚至比Gemini Ultra还要略强。

图源：官网

　　具体来说，Reka Core的主要技术亮点体现在这几个方面：

　　多模态能力：具备图像，视频和音频理解能力。它对图像、视频和音频具有强大的上下文理解能力，是目前市面上除了Gemini之外唯二的全模态能力模型。

　　128K上下文窗口。

　　极强的推理能力。

　　Reka Core具有超强的推理能力(包括语言和数学)，因此适合执行需要复杂分析的任务。

　　而除了超大杯Reka Core之外，团队之前就已经放出了两个小型的开源模型Reka Flash和Reka Edge。

　　最令人咂舌的是，这个模型性能完全对标GPT-4的产品诞生于一个只有22人的团队——

　　成员几乎都是远程办公，接近半数亚裔，分布在包括加州、西雅图、伦敦、苏黎世、香港和新加坡等地。

图源：官网

　　用他们自己的说法，这只“小而凶猛”的团队在过去十年中为人工智能领域的许多突破做出了非常大贡献。

图源：领英

　　根据CTO的介绍，这个模型是20人的团队在最近4个月内才肝出来的，因为他们90%的算力在去年12月底才到位。

　　随着Reka Core的发布，他们从幕后走到舞台中央，让“大模型”第一次进入“小团队”时代!

　　能看懂三体的大模型

　　在官方的演示中，Reka Core对网飞《三体》第一集那个经典场景进行了解读：

来源：官方素材

　　视频中一个人在昏暗的房间里，将手电筒照在墙上。墙上有很多用红色和黑色墨水写的数字和等式。这个人似乎在很认真地研究这些数字，然后转过身来对着镜头开始说话，提到了倒计时和一系列杀人案件似乎有某种关系。

　　如果让一个没有看过《三体》的人来看这段视频，能不能这么全面地捕捉到这些细节都很难说。而且Reka Core很自然地理解并且整合了视频中场景的切换，人物动作的意图，以及声音等多模态的信息。

来源：官方素材

　　紧跟着再把后边一段和“倒计时”有关的视频喂给它，它不但清楚地理解了视频中的信息，而且还将这个片段画面中的倒计时和上一个视频中声音信息中的倒计时主动联系了起来。

　　视频中的倒计时让人感到了不安和一种迫近的危险。这可能和那个男人提到的一连串的谋杀案有关。这可能和一个定时炸弹或者某个截止时间有关。人物可能要在这个截止时间之前来做什么事情，从而避免灾难性结果的发生，或者解决一个什么谜题。当然，这个倒计时也可能代表了时间的有限性，人物在混乱的环境中不得不面对的挣扎。

　　除了多模态素材理解能力超强，Reka的代码能力也非常彪悍。

　　官方演示了一段Reka Core输出的可视化“三体问题”的python代码：

来源：官方素材

　　它还能准确地识别出《三体》中的演员。Reka Core把他在其他作品中饰演的人物都自动联想出来。

来源：官方素材

　　镜头中直升机的具体型号，大型粒子对撞机的位置，都推断得有理有据。

来源：官方素材

　　技术细节

　　Reka Core是一个闭源模型，但是Reka之前已经开源了两个较小的模型Reka Flash(21B)和Reka Edge(7B)

　　训练数据

　　根据官方公布的对于训练数据的说明，Reka三个模型训练数据包括公开数据集和专有/授权数据集，数据集的知识截止日期为知识截止日期为2023 年 11 月。

　　模型所摄取的数据集包括文本、图像、视频和音频片段。两个体量较小的开源模型Reka Flash 和 Reka Edge 分别在大约5万亿和4.5万亿token的数据上进行了训练。

　　预训练数据中约有25%与代码相关，30%与STEM相关。大约25%的数据是从网络抓取的。

　　模型结构

图源：技术报告

　　模型的整体架构如上图所示，是一个模块化的编码器-解码器架构。支持文本、图像、视频和音频输入，不过目前仅支持文本输出。

　　骨干Transformer基于 “Noam”架构。从架构上看，与PaLM架构相似，但没有并行层。

　　数据集表现

　　根据官方给出的数据集表现，Reka Core已经完全不输GPT-4.而小一些的开源模型Reka Flash的多模态能力也和Gemini Pro 1.5差不多了。

图源：技术报告

　　在人类测试者参与的对于市面上几个主流模型的打分反馈结果来看，Reka Core的多模态测试成绩超过了Claude 3超大杯，落后GPT-4V不多。

　　图源：技术报告

　　在这个测试之后，Reka团队还让Reka Core自己扮演人类评分者的角色，对于每个模型的输出进行了打分评估，得到的结果也和人类评分结果非常接近。

　　图源：技术报告

　　同样在人类测试者参与的纯文本的测试中，Reka Core的成绩也仅次于GPT-4 Turbo和Claude 3超大杯。

图源：技术报告

　　团队成员介绍

　　CEO/联合创始人 Dani Yogatama

图源：官网

　　他出生于印尼，2015年博士毕业于CMU。曾经短暂就职于百度硅谷AI实验室，之后加入DeepMind，工作至2022年。现在是Reka AI CEO，同时还是南加大计算机系副教授。

　　他在创立Reka AI之前的研究生涯，参与了多篇知名的论文。

图源：谷歌学术

　　CTO/联合创始人 Yi Tay

图源：官网

　　他来自新加坡，曾经担任谷歌Research的技术主管，谷歌大脑高级研究科学家。在谷歌任职期间，他对许多大模型项目做出了贡献：例如 PaLM、UL2、Flan-{PaLM/UL2/T5}、LaMDA/Bard、MUM 等。

图源：领英

　　他除了是一个非常成功的深度学习科学家和创业者之外，还是一个业余古典钢琴演奏家，在2012年获得了伦敦三一学院古典钢琴演奏副文凭。

　　联合创始人 Qi Liu

图源：官网

　　他博士毕业于牛津大学，曾经在Fair担任研究员，现在除了是Reka AI的联合创始人之外，还在香港大学担任计算机系助理教授。

图源：领英

　　Che Zheng

图源：官网

　　他本科毕业于清华大学，硕士毕业于CMU，在加入Reka AI之前曾经在快手和谷歌任职。

图源：领英

图源：领英

　　Zhongkai Zhu

图源：官网

　　他在加入Reka AI之前曾今在Meta AI，微软，特斯拉任职，本科毕业于北航。

图源：领英

声明：来源非IT商业科技网的作品均转载自其它媒体，转载请尊重版权保留出处，一切法律责任自负。文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：Email：342 4350 938@qq.com

频道精选

: 台积电公布A16 1.6nm工艺：对比2nm性能提高10%、功耗降低20%
　　台积电在美国举办了2024年台积电北美技术论坛，披露其最新的制程技术、先进封装技术、以及三维集成电路(3D IC)技术，凭借此领先的半导
2024-04-26

: 雷军公布小米SU7产能享界S9亮相：车企大佬化身大主播
　　日前，2024(第十八届)北京国际汽车展览会热闹非凡。　　财联社记者注意到，新能源汽车成了各大展台的标配。展会上不仅有全球首发车117
2024-04-26

: 宁德时代不只是卖电池那么简单
　　你是不是还以为宁德时代就卖电池?错了，他们正在搞大动作。　　看完北京车展的发布会，你就会知道买电动车，看配置、比价格都是次要，
2024-04-26

: 全球化布局加速数智化工厂赋能九号公司研发制造实力尽显
　　作为一家聚焦创新短交通服务机器人领域的科技公司，九号公司在颠覆了平衡车行业，将其从富人玩具转变为大众电子消费品!在2015年九号公
2024-04-26

: 移动云聚力“融创共赢算网领航”：算网原生技术分论坛即将启幕共探前沿趋势与网络生态繁荣
　　2024年4月29日上午，由中国移动云能力中心承办的算网原生技术分论坛将在苏州召开。本次活动以融创共赢，算网领航为主题，邀请众多权威
2024-04-26

: AI火热微软第三财季净利润219亿美元同比增长20%
微软　　北京时间4月26日，微软公司(NASDAQ:MSFT)今天发布了截至3月31日的2024财年第三季度财报。财报显示，按照美国通用会计准则(GAAP)计
2024-04-26

: 技嘉推出FO27Q3 27英寸显示器配备2个HDMI 2.1接口
　　原标题：技嘉推出 FO27Q3 27 英寸显示器：2K 360Hz QD-OLED，5999 元　　4 月 26 日消息，技嘉今天在京东上架一款型号为 FO2
2024-04-26

汽车/新能源

2017-2019 Copyright © IT商业科技网备案许可证号粤ICP备2022153948号豫公网安备110102003388号

紧急处理QQ：133 4673 445@qq.com