{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 软件 > 正文

META:Llama 3模型训练平均每3小时故障一次 GPU问题占最大类

来源:IT商业科技网    时间:2024-07-30 09:54:41

  据报道,Meta最近发布了一项研究,详细介绍了在包含 16384 个 Nvidia H100 80GB GPU 的丛集上运行的 Llama 3 405B 模型训练。 训练运行持续了54天,在此期间群集遇到了419个意外组件故障,平均每3个小时发生一次故障。

  报道称,GPU或其板载HBM3内存占了近一半的故障案例,凸显GPU的重要性与脆弱性。 多达16384个GPU训练的规模和同步特性,使其容易发生故障。 如果未能正确缓解故障,单一 GPU 故障可能会中断整个训练作业,从而需要重新启动。

  正如古老的超级计算格言所说,大规模系统唯一确定的就是失败。 超级计算机是极其复杂的设备,每隔几个小时就会出现故障,这是很正常的,开发人员的主要技巧是确保系统保持运行。

  Llama 3 团队表示,他们维持了 90% 以上的有效训练时间。

  在为期54天的预训练快照中,出现了466次工作中断,其中47次是计划中断,419次是意外中断。 计划内的中断是由于自动化维护造成的,而意外的中断则主要源自于硬件问题。 GPU 问题是最大的一类,占意外中断的 58.7%。 只有三起事件需要大量人工干预,其余的由自动化管理。

  在419个意外中断中,148个(30.1%)是由各种GPU故障(包括NVLink故障)引起的,而72个(17.2%)是由HBM3内存故障引起的。

  虽然GPU是最重要的组件,但也很脆弱,但41.3%的意外中断是由多种因素造成的,包括软件错误、网络电缆和网络适配器。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
META:Llama 3模型训练平均每3小时故障一次 GPU问题占最大类

META:Llama 3模型训练平均每3小时故障一次 GPU问题占最大类

  据报道,Meta最近发布了一项研究,详细介绍了在包含 16384 个 NvidiaH100 80GB GPU 的丛集上运行的 Llama 3 405B 模型训练。
2024-07-30
电动车只有富人玩得起? 全球3成首批买主后悔了

电动车只有富人玩得起? 全球3成首批买主后悔了

  近来全球电动车需求放缓,就连首批购买电动车的车主都开始后悔,根据调查报告指出,全球有近3成的电动车车主想换回燃油车,主要原因包
2024-07-30
不是英伟达! 苹果宣布采Google芯片训练AI模型

不是英伟达! 苹果宣布采Google芯片训练AI模型

  科技大厂苹果周一发布的研究报告中表示,将采用Google设计的芯片,为即将推出的AI(人工智能)工具和相关功能提供动能。  据报导,苹果
2024-07-30
越秀资本与狮桥集团、深向科技签署战略合作框架协议

越秀资本与狮桥集团、深向科技签署战略合作框架协议

  7月29日上午,狮桥集团、DeepWay深向科技创始人兼CEO万钧一行到访越秀资本,双方围绕企业经营发展、深化业务合作等进行了交流。  越
2024-07-30
用友大易与Blueglass联名 携手成为SuperHR的新选择!

用友大易与Blueglass联名 携手成为SuperHR的新选择!

  近日,招聘管理系统行业领军者用友大易与国内知名高端酸奶品牌Blueglass达成跨界联名,并推出联名款贴纸——这易杯,谁不AI,携手成为S
2024-07-30
第二届升学e网通智慧心育研讨会召开 共启心理健康教育新篇章

第二届升学e网通智慧心育研讨会召开 共启心理健康教育新篇章

  同心共筑·智启未来第二届升学e网通智慧心育研讨会于7月18日-7月19日在杭州铭师堂总部隆重召开。此次心理专题教研工坊研讨会旨在贯彻落
2024-07-30
小鹏G6右舵版纯电SUV登陆新加坡 提供试驾体验

小鹏G6右舵版纯电SUV登陆新加坡 提供试驾体验

  原标题:小鹏 G6 右舵版纯电 SUV 登陆新加坡,首家正式门店预计 9 月开业  7 月 29 日消息,7 月 25 日,小鹏汽车正式进
2024-07-29

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com