英伟达周四发布了一段影片,首次让公众一睹Eos的架构,Eos是其最新的面向企业的超级计算机,专为数据中心规模的高级人工智能开发而设计,也是该公司最快的人工智能超级电脑。
Eos 电脑目前由英伟达自己使用,在最新的 Top 500 榜单中,它被评为世界上性能最高的超级计算机的第 9 位,该榜单以 FP64 为衡量标准。 在纯人工智能任务中,它很可能是速度最快的超级计算机之一。
同时,它的蓝图也可以用来为其他公司建构以企业为导向的超级计算机。
Eos 在 2023 年 11 月的 Supercomputing 2023 大会 (SC23) 上亮相,以希腊女神 Eos 命名,据说她每天打开黎明的大门,这彰显了英伟达对推进 AI 技术的承诺。
英伟达在影片中表示:「每天,EOS 都在迎接英伟达数千名从事人工智能研究的内部开发人员的挑战,帮助他们解决以前无法解决的问题。」
英伟达的Eos配备了576个DGX H100系统,每个系统包含8个英伟达H100GPU用于人工智能(AI)和高性能运算(HPC)工作负载。 该系统总共配备了1152个Intel Xeon Platinum 8480C(每个CPU 56个核心)处理器以及4608个H100 GPU,使Eos能够在HPC和AI方面分别实现令人印象深刻的Remax 121.4FP64 PetaFLOPS和AI18.4 88性能。
Eos(依托于 DGX SuperPOD 架构) 的设计专为人工智能工作负载和可扩展性而打造,因此它采用了英伟达的 Mellanox Quantum-2 InfiniBand with In-Network Computing 技术,该技术的数据传输速度高达 400 Gb /s,这对于有效训练大型人工智能模型和扩大规模至关重要。
英伟达表示,除了强大的硬件之外,英伟达的 Eos 还配备了强大的软件,同样是专门为人工智能开发和部署而建置的。 因此,英伟达的 Eos 可以解决各种应用程序,从类似 ChatGPT 的生成式 AI 到 AI 工厂。
英伟达在影片中表示:「Eos 拥有一个整合的软件堆叠,其中包括人工智能开发和部署软件,包括编排和丛集管理、加速运算储存和网络库,以及针对人工智能工作负载优化的操作系统。」
英伟达未透露 Eos 的成本是多少,而且 NVIDIA DGX H100 系统的定价是保密的,取决于许多因素,例如数量,这也无济于事。 同时,考虑到每台NVIDIA H100的成本可能在3万至4万美元之间,这取决于数量,因此可以大致估测出其有多昂贵。
英伟达认为,随着世界各地的企业和开发人员寻求利用AI的力量,Eos成为一种关键资源,有望加速实现能为每个组织提供动力的AI驱动应用进程。