${dede:global.cfg_webname/}$

当前位置：首页 > 科技 > 软件 > 正文

META：Llama 3模型训练平均每3小时故障一次 GPU问题占最大类

来源：IT商业科技网时间：2024-07-30 09:54:41

　　据报道，Meta最近发布了一项研究，详细介绍了在包含 16384 个 Nvidia H100 80GB GPU 的丛集上运行的 Llama 3 405B 模型训练。训练运行持续了54天，在此期间群集遇到了419个意外组件故障，平均每3个小时发生一次故障。

　　报道称，GPU或其板载HBM3内存占了近一半的故障案例，凸显GPU的重要性与脆弱性。多达16384个GPU训练的规模和同步特性，使其容易发生故障。如果未能正确缓解故障，单一 GPU 故障可能会中断整个训练作业，从而需要重新启动。

　　正如古老的超级计算格言所说，大规模系统唯一确定的就是失败。超级计算机是极其复杂的设备，每隔几个小时就会出现故障，这是很正常的，开发人员的主要技巧是确保系统保持运行。

　　Llama 3 团队表示，他们维持了 90% 以上的有效训练时间。

　　在为期54天的预训练快照中，出现了466次工作中断，其中47次是计划中断，419次是意外中断。计划内的中断是由于自动化维护造成的，而意外的中断则主要源自于硬件问题。 GPU 问题是最大的一类，占意外中断的 58.7%。只有三起事件需要大量人工干预，其余的由自动化管理。

　　在419个意外中断中，148个(30.1%)是由各种GPU故障(包括NVLink故障)引起的，而72个(17.2%)是由HBM3内存故障引起的。

　　虽然GPU是最重要的组件，但也很脆弱，但41.3%的意外中断是由多种因素造成的，包括软件错误、网络电缆和网络适配器。

声明：来源非IT商业科技网的作品均转载自其它媒体，转载请尊重版权保留出处，一切法律责任自负。文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：Email：342 4350 938@qq.com

频道精选

: META：Llama 3模型训练平均每3小时故障一次 GPU问题占最大类
　　据报道，Meta最近发布了一项研究，详细介绍了在包含 16384 个 NvidiaH100 80GB GPU 的丛集上运行的 Llama 3 405B 模型训练。
2024-07-30

: 电动车只有富人玩得起？全球3成首批买主后悔了
　　近来全球电动车需求放缓，就连首批购买电动车的车主都开始后悔，根据调查报告指出，全球有近3成的电动车车主想换回燃油车，主要原因包
2024-07-30

: 不是英伟达！苹果宣布采Google芯片训练AI模型
　　科技大厂苹果周一发布的研究报告中表示，将采用Google设计的芯片，为即将推出的AI(人工智能)工具和相关功能提供动能。　　据报导，苹果
2024-07-30

: 越秀资本与狮桥集团、深向科技签署战略合作框架协议
　　7月29日上午，狮桥集团、DeepWay深向科技创始人兼CEO万钧一行到访越秀资本，双方围绕企业经营发展、深化业务合作等进行了交流。　　越
2024-07-30

: 用友大易与Blueglass联名携手成为SuperHR的新选择！
　　近日，招聘管理系统行业领军者用友大易与国内知名高端酸奶品牌Blueglass达成跨界联名，并推出联名款贴纸——这易杯，谁不AI，携手成为S
2024-07-30

: 第二届升学e网通智慧心育研讨会召开共启心理健康教育新篇章
　　同心共筑·智启未来第二届升学e网通智慧心育研讨会于7月18日-7月19日在杭州铭师堂总部隆重召开。此次心理专题教研工坊研讨会旨在贯彻落
2024-07-30

: 小鹏G6右舵版纯电SUV登陆新加坡提供试驾体验
　　原标题：小鹏 G6 右舵版纯电 SUV 登陆新加坡，首家正式门店预计 9 月开业　　7 月 29 日消息，7 月 25 日，小鹏汽车正式进
2024-07-29

汽车/新能源

2017-2019 Copyright © IT商业科技网备案许可证号粤ICP备2022153948号豫公网安备110102003388号

紧急处理QQ：133 4673 445@qq.com