{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 软件 > 正文

Mamba再次挑战霸主Transformer 首个通用Mamba开源大模型一鸣惊人

来源:互联网    时间:2024-08-13 17:13:52

  TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。

  今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。

  虽然之前Mistral已经发过Mamba架构的Codestral Mamba模型,但仅针对编码;Falcon Mamba则是通用模型,能够处理各种文本生成任务。

  它是继Falcon 180B、Falcon 40B和Falcon 2之后TII的第四个开放模型,与Falcon系列之前的型号不同,Falcon Mamba 7B完全采用SSLM架构而不是传统的Transformer架构。

  Mamba架构横空出世后,体现出了内存效率方面的显著优势,无需额外的内存需求即可生成大量文本。

  如今,SSLM正在逐渐蚕食Transformer架构原本「大一统」的地位。

  测评数据显示,Falcon Mamba 7B性能已经超越同尺寸级别的领先模型,例如Meta最新开源模型Llama 3.1 8B和Mistral 7B。

  Falcon Mamba 7B将根据TII Falcon License 2.0发布,这是一个基于Apache 2.0的许可证,其中包括促进负责任地使用人工智能的使用政策。

  01 Falcon Mamba 7B有什么特别之处?

  虽然Transformer模型仍然主导着AI大模型领域,但研究人员指出,该架构在处理较长文本时可能会遇到困难。

  Transformer的自注意力机制(Self-Attention)让模型可以关注输入序列中的所有位置,并为每个位置分配不同的注意力权重。

  这使得模型能够更好地处理长距离的依赖关系,也就是说,对于句子中距离较远的单词,模型也能有效地捕获其关系。

  这种通过比较文本中每个token来理解上下文的方式,需要更多的计算能力和内存来处理不断增长的上下文窗口。

  如果资源没有相应扩展,推理速度会变慢,最终无法处理超过某个固定长度的文本。

  为了解决这些难题,状态空间语言模型(SSLM)架构应运而生,该架构通过在处理单词时持续更新「状态」,已成为一种有前途的替代方案。它已经被一些组织部署,TII是最新的采用者。

  这个全新的Falcon模型正是使用了CMU和普林斯顿大学的研究人员在2023年12月的一篇论文中最初提出的Mamba SSM架构。

  该架构使用选择机制,使模型能够根据输入动态调整其参数。

  通过这种方式,模型可以专注于或忽略特定输入,类似于Transformer中的注意力机制,但同时具备处理长文本序列(如整本书)的能力,而无需额外的内存或计算资源。

  TII指出,这种方法使模型适用于企业级机器翻译、文本摘要、计算机视觉、音频处理以及估计和预测等任务。

  首个通用大规模Mamba模型

  上面提到,基于注意力机制的Transformer是当今所有最强大语言模型中占主导地位的架构。然而,由于计算和内存成本随着序列长度的增加而增加,注意力机制在处理长序列时存在根本限制。

  各种替代架构,特别是SSLM,试图解决序列扩展限制,但性能不及最先进的Transformer。

  Falcon Mamba模型在不损失性能的前提下,可以突破序列扩展限制。

  Falcon Mamba基于去年12月提出的第一版Mamba架构,增加了RMS归一化层以确保在大规模训练中保持稳定性。

  这种架构选择确保了Falcon Mamba模型:

  - 可以在不增加任何内存存储的情况下处理任意长度的序列,特别是可以在单张A10 24GB GPU上运行;

  - 无论上下文大小,生成新token所需的时间恒定。

  模型训练

  Falcon Mamba使用约5500GT(相当于5.5B token)的数据进行训练,主要由RefinedWeb数据组成,并添加了公共来源的高质量技术数据和代码数据。

  在大部分训练中使用了恒定的学习率,随后进行了一个较短的学习率衰减阶段。

  在最后阶段,还加入了一小部分高质量的精选数据,以进一步提升模型性能。

  02 性能评估

  使用lm-evaluation-harness包对新排行榜版本的所有基准测试进行模型评估,然后使用HuggingFace分数归一化处理评估结果。

  如下图所示,Falcon Mamba 7B获得15.04的均分,超过Llama 3.1 8B 13.41分和Mistral 7B 14.50分。

  此外,还使用了lighteval对大语言模型排行榜第一版的基准测试进行评估。

  可以看到,Falcon Mamba 7B仅次于Transformer架构的Falcon 2 11B,分数仍然超过Gemma、Llama、Mistral等同等规模的知名模型。

  处理大规模序列

  理论上来说,SSM模型在处理大规模序列时具有效率优势。

  为了验证模型的大规模序列处理能力,使用optimum-benchmark库,对Falcon Mamba和流行的Transformer模型在内存使用和生成吞吐量方面进行了比较。

  为了公平比较,将所有Transformer模型的词汇大小调整为与Falcon Mamba一致,因为这对模型的内存需求有很大影响。

  在查看结果之前,先讨论序列中提示词(预填充)和生成(解码)部分的区别。

  预填充的细节对于SSM而言,比对于Transformer模型更为重要。

  当Transformer生成下一个token时,它需要关注上下文中所有先前token的键和值,这意味着内存需求和生成时间都会随着上下文长度线性增长。

  而SSM仅关注并存储其递归状态,因此在生成大规模序列时不需要额外的内存或时间。

  虽然这解释了SSM在解码阶段相对于Transformer的优势,但在预填充阶段需要使用新方法来充分利用SSM架构。

  预填充的标准方法是并行处理整个提示词以充分利用GPU。这种方法在optimum-benchmark库中使用,我们称之为并行预填充。

  并行预填充需要将提示词每个token的隐藏状态存储在内存中。对于Transformer,这额外的内存主要由存储的KV缓存占据。

  对于SSM模型,不需要缓存,存储隐藏状态的内存成为唯一与提示词长度成比例的部分。

  因此,内存需求将随提示词长度增长,SSM模型将失去处理任意长序列的能力,类似于Transformer。

  并行预填充的替代方法是逐个处理token提示词,我们称之为顺序预填充。

  类似于序列并行处理,它也可以大规模地处理提示词,而不是单个token,以更好地利用GPU。

  虽然顺序预填充对Transformer意义不大,但它为SSM模型带来了处理任意长提示词的可能性。

  考虑到这些观点,实验首先测试了可以在单个24GB A10 GPU上适应的最大序列长度。

  其中,批大小固定为1.使用float32精度。

  即使在并行预填充中,Falcon Mamba也能适应比Transformer更大的序列,而在顺序预填充中发挥了全部潜力,可以处理任意长度的提示词。

  接下来,在提示词长度为1.生成token数量最多为130k的情况下测量生成吞吐量,使用批大小为1.并在H100 GPU上进行。

  结果如图所示。可以观察到,Falcon Mamba在生成所有token时保持恒定的吞吐量,且GPU峰值内存没有增加。

  而对于Transformer模型,随着生成token数量的增加,峰值内存增加,生成速度变慢。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
 iPhone17系列将搭载自研5G基带 高通来自苹果的营收将减少35%

iPhone17系列将搭载自研5G基带 高通来自苹果的营收将减少35%

  据《Barron’s》报导,根据华尔街研究机构Wolfe Research分析师Chris Caso最新发布的研究报告称,苹果将会在2025年推出的iPhone
2024-08-13
AI智能网关 边缘计算 视觉AI

AI智能网关 边缘计算 视觉AI

  随着人工智能技术的不断发展,AI智能网关正成为连接现实世界和虚拟智能世界的重要桥梁。作为智能化时代的关键设备,AI智能网关在物联网
2024-08-13
谷歌发布了3个新的开源Gemma人工智能模型

谷歌发布了3个新的开源Gemma人工智能模型

  在被OpenAI和微软打了个措手不及之后,谷歌改变了策略。这家搜索巨头已经将其 Gemini AI 集成到众多产品中,但这并不是谷歌唯一的人
2024-08-13
前所未有!这款海信激光电视星光S1秘密怎么这么多?

前所未有!这款海信激光电视星光S1秘密怎么这么多?

  现在的演唱会门票是越来越难抢了,还好每次巡演结束都会发官摄让我也能多少感受下现场的余热。相信很多追星族跟我一样,经常幻想即使不
2024-08-13
钛动科技:短剧与网文出海的营销新策略

钛动科技:短剧与网文出海的营销新策略

  随着数字时代的到来,短剧与网络文学的网络传播正掀起一股新的浪潮。在这一趋势下,越来越多的中国企业和创作者或尝试把短剧和网文传播
2024-08-13
解锁新场景、布局新业务 叮当快药荣登“2024 药品零售综合竞争力百强榜”

解锁新场景、布局新业务 叮当快药荣登“2024 药品零售综合竞争力百强榜”

  近日,2024 西普金奖颁奖盛典在海南·博鳌隆重举行,国内外健康产业头部企业、商业零售企业、国内外投资机构等受邀共襄盛典。叮当快药作
2024-08-13
微星发布两款新品主机:宙斯盾S与海皇戟RS

微星发布两款新品主机:宙斯盾S与海皇戟RS

  2024年8月12日,微星正式宣布推出两款全新主机产品——白色款的宙斯盾S与黑色款的海皇戟RS。这两款电脑主机分别隶属于微星的宙斯盾系列
2024-08-13
山灵MG100陶瓷振膜动圈耳机新增“松石绿”配色 配备超线性双磁路系统

山灵MG100陶瓷振膜动圈耳机新增“松石绿”配色 配备超线性双磁路系统

  原标题:山灵 MG100 陶瓷振膜动圈耳机新增松石绿配色,957 元  8 月 13 日消息,据山灵音响官方微博,山灵今天为旗下 MG100陶
2024-08-13
快睿推出CR401风冷散热器 支持PWM控速

快睿推出CR401风冷散热器 支持PWM控速

  原标题:快睿推出 CR401 风冷散热器:4 热管单风扇单塔,200W 解热能力  8 月 13 日消息,快睿 Cryorig 本月 8 日推出了
2024-08-13

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com