{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 软件 > 正文

谷歌爆改Transformer “无限注意力”让1B小模型读完10部小说 114倍信息压缩

来源:互联网    时间:2024-04-13 10:46:02

  谷歌大改Transformer,“无限”长度上下文来了。

  现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。

  8B大模型在500K上下文长度的书籍摘要任务中,拿下最新SOTA。

  这就是谷歌最新提出的Infini-attention机制(无限注意力)。

  它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现114倍压缩比。

  什么概念?

  就是在内存大小不变的情况下,放进去114倍多的信息。好比一个存放100本书的图书馆,通过新技术能存储11400本书了。

  这项最新成果立马引发学术圈关注,大佬纷纷围观。

  加之最近DeepMind也改进了Transformer架构,使其可以动态分配计算资源,以此提高训练效率。

  有人感慨,基于最近几个新进展,感觉大模型越来越像一个包含高度可替换、商品化组件的软件栈了。

  该论文核心提出了一种新机制Infini-attention。

  它通过将压缩记忆(compressive memory)整合到线性注意力机制中,用来处理无限长上下文。

  压缩记忆允许模型在处理新输入时保留和重用之前的上下文信息。它通过固定数量的参数来存储和回忆信息,而不是随着输入序列长度的增加而增加参数量,能减少内存占用和计算成本。

  线性注意力机制不同于传统Transformer中的二次方复杂度注意力机制,它能通过更小的计算开销来检索和更新长期记忆。

  在Infini-attention中,旧的KV状态({KV}s-1)被存储在压缩记忆中,而不是被丢弃。

  通过将查询与压缩记忆中存储的键值进行匹配,模型就可以检索到相关的值。

  PE表示位置嵌入,用于给模型提供序列中元素的位置信息。

  对比来看Transformer-XL,它只缓存最后一段KV状态,在处理新的序列段时就会丢弃旧的键值对,所以它只能保留最近一段的上下文信息。

  对比几种不同Transformer模型可处理上下文的长度和内存占用情况。

  Infini-attention能在内存占用低的情况下,有效处理非常长的序列。

  Infini-attention在训练后,分化出了两种不同类型的注意力头,它们协同处理长期和短期上下文信息。

  专门化的头(Specialized heads):这些头在训练过程中学习到了特定的功能,它们的门控得分(gating score)接近0或1.这意味着它们要么通过局部注意力机制处理当前的上下文信息,要么从压缩记忆中检索信息。

  混合头(Mixer heads):这些头的门控得分接近0.5.它们的作用是将当前的上下文信息和长期记忆内容聚合到单一的输出中。

  研究团队将训练长度增加到100K,在Arxiv-math数据集上进行训练。

  在长下文语言建模任务中,Infini-attention在保持低内存占用的同时,困惑度更低。

  对比来看,同样情况下Memorizing Transformer存储参数所需的内存是Infini-attention的114倍。

  消融实验比较了“线性”和“线性+增量”记忆两种模式,结果显示性能相当。

  实验结果显示,即使在输入只有5K进行微调的情况下,Infini-Transformer可成功搞定1M长度(100万)的passkey检索任务。

  在处理长达500K长度的书籍摘要任务时,Infini-Transformer达到最新SOTA。

  该研究由谷歌团队带来。

  其中一位作者(Manaal Faruqui)在Bard团队,领导研究Bard的模型质量、指令遵循等问题。

  最近,DeepMind的一项工作也关注到了高效处理长序列数据上。他们提出了两个新的RNN模型,在高效处理长序列时还实现了和Transformer模型相当的性能和效率。

  感觉到谷歌最近的研究重点之一就是长文本,论文在陆续公布。

  网友觉得,很难了解哪些是真正开始推行使用的,哪些只是一些研究员心血来潮的成果。

  不过想象一下,如果有一些初创公司专门做内存数据库,但是模型能已经能实现无限内存了,这可真是太有趣了。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
打造更清晰沉浸观影体验!东芝电视Z700NF预售进行中

打造更清晰沉浸观影体验!东芝电视Z700NF预售进行中

  东芝电视Z700NF系列正式开放预售。其搭载1300nits Mini LED,从控光、峰值亮度、屏幕、音响等各方面,解决用户观影时因亮度不够导致
2024-04-13
FossiBOT推出F106 Pro三防手机 支持IP69K防摔防水

FossiBOT推出F106 Pro三防手机 支持IP69K防摔防水

  原标题:FossiBOT 推出 F106 Pro 三防手机:20MP 夜视、12000 毫安时电池  4 月 12 日消息,FossiBOT 近日在海外推出一款
2024-04-12
OPPO A1s手机上架 金刚石抗摔结构 实现从内到外全面抗摔

OPPO A1s手机上架 金刚石抗摔结构 实现从内到外全面抗摔

  原标题:OPPO A1s 手机上架:金刚石抗摔结构,最高 12GB+512GB  4 月 12 日消息,OPPO A1s 上架京东,4 月 19 日上午 10
2024-04-12
JBL CLIP5便携蓝牙音箱国行上架 音量提高了15%

JBL CLIP5便携蓝牙音箱国行上架 音量提高了15%

  原标题:JBL CLIP5 便携蓝牙音箱国行上架:12 小时续航、IP67 549 元  4 月 12 日消息,JBL 在今年 1 月的 CES 2024 上
2024-04-12
华硕天选4R游戏本配置上新 可动态联动协调CPU与GPU

华硕天选4R游戏本配置上新 可动态联动协调CPU与GPU

  原标题:华硕天选 4R 游戏本配置上新:R7-7435H + RX 7600S,7499 元  4 月 12 日消息,华硕天选 4R 游戏本配置上新,搭
2024-04-12
西部数据推出全球首款4TB UHS-I SD存储卡:最高传输速率达104MB/s

西部数据推出全球首款4TB UHS-I SD存储卡:最高传输速率达104MB/s

  原标题:西部数据推出全球首款4TB UHS-I SD存储卡:最高传输速率达104MB s  4月12日消息,西部数据展出了业内首款4TB SD卡——闪
2024-04-12
中国小鹏汽车在小米电动汽车发布后将SUV G6的价格降至25,000美元以下

中国小鹏汽车在小米电动汽车发布后将SUV G6的价格降至25,000美元以下

  小米首款电动汽车已经在中国汽车市场掀起波澜,竞争对手小鹏汽车今天将其G6的价格从18 99万元下调至17 99万元。  蔚来汽车和理想汽车
2024-04-12
中国显示面板巨头京东方预计第一季度利润将飙升至304%

中国显示面板巨头京东方预计第一季度利润将飙升至304%

  4月12日电,京东方科技集团表示,这家中国显示面板巨头预计今年前三个月净利润将增长304%,这要归功于面板价格上涨和下游需求提前释放
2024-04-12

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com