据报道,英伟达最新一代人工智能芯片 Blackwell 在部署至数据中心时遇到技术问题,主要包括服务器机架过热和芯片连接异常。
这些问题对数据中心的部署进程造成阻碍,英伟达多家客户包括微软、亚马逊旗下 AWS、Google、Meta最近砍掉部分 Blackwell GB200 机架的订单。
因延迟交付,微软原本计划安装大量GB200的凤凰城数据中心现在已经装满H200芯片。 知情人士透露,如果英伟达无法解决这些问题,其性能可能会低于公司承诺的水平。
消息传出后,英伟达周一早盘股价一度跌逾4%,截至盘中跌幅收敛至2.69%,每股暂报132.26美元。
Blackwell 芯片以其卓越性能和高能效广受期待。 与上一代产品 Hopper 相比,Blackwell 的能源效率提高四倍,吸引微软、亚马逊、Google 和 Meta 等科技巨擘。 每家公司为此下达价值逾100亿美元的订单。
然而,将多个高功耗芯片整合到一个服务器机架中比预期更具挑战。 每个 Blackwell 机架比家用冰箱还高,重量接近本田 Civic 汽车。 由于计算密度极高,机架必须采用水冷系统,而非传统的风冷系统。
对于多数 AI 开发商和数据中心运营商而言,部署这种特殊机架是全新且复杂的任务。 此外,并非所有数据中心都能满足这些机架的环境需求,客户必须重新规划部署方案。
由于过热和连接问题,部分客户削减了 Blackwell GB200 机架的订单。 尽管面临挑战,英伟达仍有机会挽回局面。 如果能够及时解决这些技术问题,客户或许会重新增加订单。 此外,尽管机架有问题,Blackwell 芯片的性能仍然优于上一代产品,英伟达可能会为问题机架找到其他买家。
据知情人士透露,作为OpenAI的服务器供应商,微软原计划在其凤凰城的一个设施中安装至少包含5万枚Blackwell芯片的GB200机架。 然而,由于 Blackwell 芯片从去年开始延迟交付,OpenAI 要求微软尽早为其提供上一代英伟达 H200 芯片。 这项变更导致原本计划安装大量 GB200 的凤凰城数据中心现在已经装满了 H200 芯片。
据悉,微软现在计划在今年3月在凤凰城的设施中安装包含12000枚Blackwell芯片的GB200机架,数量约为最初计划的四分之一。 另一位与微软合作的人士表示,该公司也计划在今年稍后 GB300 Blackwell 机架上市时进行采购。
英伟达原本计划在去年年底开始向客户交付Blackwell机架,但由于芯片设计缺陷导致初期延迟了3个月。 尽管英伟达已经修复这个问题,但到11月时,客户开始担心机架的过热问题。 为此,英伟达多次要求供应商更改设计。
然而,问题并未完全解决。 据参与机架测试的3位人士透露,客户也发现芯片之间数据传输(即网络)存在不一致的情况。 这些问题可能导致 Blackwell 机架的设定时间比预期更长,如果英伟达无法解决这些问题,其性能可能会低于公司承诺的水平。