据报道,Meta最近发布了一项研究,详细介绍了在包含 16384 个 Nvidia H100 80GB GPU 的丛集上运行的 Llama 3 405B 模型训练。 训练运行持续了54天,在此期间群集遇到了419个意外组件故障,平均每3个小时发生一次故障。
报道称,GPU或其板载HBM3内存占了近一半的故障案例,凸显GPU的重要性与脆弱性。 多达16384个GPU训练的规模和同步特性,使其容易发生故障。 如果未能正确缓解故障,单一 GPU 故障可能会中断整个训练作业,从而需要重新启动。
正如古老的超级计算格言所说,大规模系统唯一确定的就是失败。 超级计算机是极其复杂的设备,每隔几个小时就会出现故障,这是很正常的,开发人员的主要技巧是确保系统保持运行。
Llama 3 团队表示,他们维持了 90% 以上的有效训练时间。
在为期54天的预训练快照中,出现了466次工作中断,其中47次是计划中断,419次是意外中断。 计划内的中断是由于自动化维护造成的,而意外的中断则主要源自于硬件问题。 GPU 问题是最大的一类,占意外中断的 58.7%。 只有三起事件需要大量人工干预,其余的由自动化管理。
在419个意外中断中,148个(30.1%)是由各种GPU故障(包括NVLink故障)引起的,而72个(17.2%)是由HBM3内存故障引起的。
虽然GPU是最重要的组件,但也很脆弱,但41.3%的意外中断是由多种因素造成的,包括软件错误、网络电缆和网络适配器。