AI 目前是各家未来宏图大业的重中之重,为了完成这些目标,现阶段最重要的,就是抢到足够多的高阶GPU。 专家估算,当前争夺最烈的离不开5家巨头:微软、Google、Meta、亚马逊与马斯克创建的 xAI。
近日,LessWrong网站上,作者CharlesD针对世界五大科技公司的2024年拥有的算力,以及2025年的预测,做出以下估算:
微软有 75 万 - 90 万块等效 H100.明年预计达到 250 万 - 310 万
Google 有 100 万 - 150 万块等效 H100.明年预计达到 350 万 - 420 万
Meta有55万 -65万块等效H100.明年预计达到190万-250万
亚马逊有25万-40万块等效H100.明年预计达到130万- 160万
xAI 有10 万块等效 H100.明年预计达到 55 万 - 100 万
文章对此做出更进一步说明。
英伟达的实际产量
文章指出,英伟达是数据中心GPU的最大生产商。 公司2024年的产量,目前,关于这项数据来源较少,有些甚至还对不上。 不过,有估算表示2024年第四季度将生产约150万块Hopper GPU。
另外,据估计,2025年英伟达销量为650万至700万块GPU,几乎全是最新的Hopper和Blackwell系列。 根据生产比例和产量预期,其中约包括200万块Hopper,500万块Blackwell。
在这之前,根据估计,微软和Meta在2023年各生产了15万台H100.考虑到Nvidia数据中心的收入,2023年H100的同等产量似乎有可能达到100万台。
微软、Meta
微软很可能就是英伟达这两年的最大客户,这项判断是基于以下几个因素:
首先,微软拥有全球最大的公有云服务平台之一; 其次,它是OpenAI的主要算力供应商; 再者,与 Google、亚马逊不同,微软没有大规模部署自己的定制芯片; 最后,微软似乎与英伟达建立了特殊的合作关系——他们是首个获得 Blackwell GPU 的公司。
2024年微软的营收占比数据没有2023年那么精确,英伟达第二季财报(10-Q)中提到上半年为13%,第三季度仅超过10%。 这表明,微软在英伟达销售中的份额较 2023 年有所降低。
不过,Meta曾发文宣称,到2024年底将拥有相当于60万块H100算力。 据称这包括35万块H100.剩余部分很可能是H200.以及少量将在最后一个季度交付的Blackwell芯片。
文章假设这 60 万的数字准确无误,并结合收入占比进行推算,便可以更准确地估计微软的可用算力。 微软预计将比 Meta 高出 25%到 50%,也就是相当于 75 万—90 万块等效 H100 算力。
Google、亚马逊
仅从英伟达营收的贡献来看,亚马逊、Google无疑是落后微软 Meta。 然而,这两家公司的情况有着显著差异。
Google 已经拥有大量自研的客制化 TPU,这是内部工作负载的主要运算芯片。
而且,Google 在基础建设的投入,只会越来越多。 2024年第三季度财报估计,AI支出为130亿美元,大部分用于建造技术基础设施,其中60%是服务器(GPU/TPU)。
大部分或许意味着70-110亿美元,其中在TPU/GPU服务器上预估耗资45-70亿美元。
相比之下,亚马逊内部 AI 工作负载规模很可能小得多。
他们持有相当数量的英伟达芯片,主要是为了满足透过其云端平台提供的外部GPU需求,尤其是为Anthropic提供算力需求。
在2024年第三季度财报电话会议上,亚马逊CEO Andy Jassy在谈到Trainium2时表示,这些芯片获得了巨大的市场兴趣,我们已多次与制造合作伙伴协商,大幅提高原定的生产计划。
Semianalysis 报告指出,根据我们已知数据,微软和谷歌于 2024 年在 AI 基础设施上的投资计划,大幅领先亚马逊部署的算力。
这些芯片换算成等效H100并不明确,关于Trainium/Trainium2芯片的具体数量也难以获得,仅知道在上述免费额度计划中提供了4万块。
xAI
今年,xAI 在基础设施中,最为标志性事件便是──122 天建成了 10 万块 H100 组成的世界最大超算。
而且,这一规模还在不断扩展中。 马斯克预告了未来将扩展到20万块由H100/H200组成的超算。
lesswrong预计在2025年,Meta的支出规模将维持在微软支出的约80%水平。
虽然没有提及 xAI,但马斯克宣称,将在 2025 年夏天部署一个有 30 万块 Blackwell 芯片的运算集群。
文章考虑到马斯克一贯的夸张风格,更为合理的一个估计是,到2025年底他们可能实际拥有20万-40万块芯片。