英伟达如今在 AI 芯片市场的地位无可争议,直线上涨的数据中心收入和市值就是最好的佐证。但王权没有永恒,英伟达并非不可撼动。
在英伟达发布最新一代 BlackWell GPU 的三周后,4 月 9 日晚,英特尔在 Vision 2024 大会上发布了一系列关于芯片的大消息。
会上,英特尔发布了面向数据中心的第六代至强处理器,也提前展示了面向下一代 AI PC 的 Lunar Lake 处理器。不过纵观整场大会,英特尔花费最多篇幅也最重视的,可能还是最新一代的 AI 芯片:
英特尔 Gaudi 3.
Gaudi 3.图/英特尔
超越英伟达 H100:Gaudi 3 性能更强、成本更低
Gaudi 3 最直接的升级体现在性能和成本方面。
相比英伟达 H100.Gaudi 3 的人工智能推理性能平均提高 50%,能效平均提高 40%。基准测试中,Gaudi 3 可以在 Llama2-7B、Llama2-13B 模型中将训练时间缩短到英伟达 H100 的一半,同时推理吞吐量也比后者平均高出了 50%。
可以说,Gaudi 3 至少在 Llama2 等关键大模型中击败了基于英伟达 Hopper 架构的 H100 GPU,这也是目前市售产品中技术最先进的 AI 芯片。
而 Gaudi 3 还有另一个极其重要的升级——比 H100 低得多的成本,按照英特尔的原话是:
(Gaudi 3 的)成本仅为英伟达 H100 的一小部分。
也怪不得 Gaudi 3 刚刚发布,英特尔就宣布 Naver(韩国互联网巨头)、博世、IBM、Ola 等一大批公司成为英特尔 Gaudi 加速器的客户和合作伙伴。而最早在今年第二季度,英特尔就将向戴尔、惠普以及超微等 OEM 厂商率先供货,第三季度正式上市。
Naver 代表上台,图/英特尔
耐人寻味的是,英特尔往年在 Vision 大会上基本不会发布新的芯片,今年却一反常态发布了六代至强处理器和 Gaudi 3 AI 芯片两款重磅产品。
考虑到英特尔 CEO 帕特·基辛格(Pat Gesinger)去年底就炮轰过英伟达的 CUDA 生态「既浅又窄」,似乎除了软件生态上的对抗,英特尔也在加快硬件上的追赶。
不过,Gaudi 3 真的有机会挑战英伟达的 GPU 霸权吗?
要知道,相比英伟达两年前基于 Hopper GPU 架构的 H100.上个月基于 BlackWell GPU 架构发布的 B100 又进行了一轮大幅的升级,包括马斯克也不禁感慨,「目前没有什么比英伟达 GPU 更好的 AI 芯片了。」
Blackwell GPU,图/英伟达
Gaudi 3 硬件追上英伟达了吗?
不同于 BlackWell 采用了最新的台积电 3nm 工艺,Gaudi 3 基于台积电 5nm 工艺打造,同时张量核心从 24 个升级到了 32 个。
相比上一代的 Gaudi 2.Gaudi 3 在 FP8 性能、BF16 性能、网络带宽、内存带宽都得到了全面的提升,其中 FP8 吞吐量更是高达 1835 TFLOPS:
基本翻了一番。
图/ 英特尔
比较奇怪的是,搭载 128GB 内存的 Gaudi 3 没有采用最新的 HBM3(高带宽内存),而是采用了稍微有点过时的 HBM2e。
除了更低的传输带宽,HBM2e 的单颗容量也只有 16GB,相比之下 HBM3 的传输带宽得到了大幅提升,单颗容量也能达到 24GB,甚至是 32GB。
此外,Gaudi 3 采用了英伟达 BlackWell 类似的双芯片设计,同时封装了两个相同的芯片,并通过高带宽链路进行连接。每个 Gaudi 3 芯片都具有 48MB 板载 SRAM,整个芯片提供 96MB SRAM,总带宽为 12.8TB/秒。
I/O 方面,英特尔并没有放弃以太网路线,在 Gaudi 3 上将以太网端口的速率从 100GB/s 升级到了 200GB/s,再考虑到双芯片的设计和每个芯片 24 个以太网端口,每一张 Gaudi 3 的以太网 I/O 总带宽高达 8.4TB/s。
总的来说,英特尔在 Gaudi 3 的升级上并不激进,甚至可以说有些保守,包括成本要低得多的 5nm 工艺和 HBM2e 内存,都说明了这一点。虽然相比上一代 Gaudi 2 已经有了明显的进步,在部分大模型上超越 H100.但显然很难与英伟达最新的 B100 相抗衡。
但英特尔的决策未必错了。
Gaudi 3.图/英特尔
一方面,考虑到英伟达在 AI 加速计算方面的技术和生态领先优势,英特尔就算不惜一切代价进行追赶,很可能也难以追平,同时高昂的芯片成本,还会导致英特尔直接错失正在快速增长的 AI 芯片市场。
另一方面,在成本优势明显的前提下,英特尔只要能做到超越英伟达 H100 的表现,自然能够吸引足够的客户进行采购。
更何况就连英伟达自己也预计,「下一代产品(B100)将出现供应紧张」。面对「想买不能买」的窘境,很多客户自然而然也会转向其他可替代的 AI 芯片。
这其中,就有属于 Gaudi 3 的机会。
硬件、软件生态齐头并进,英特尔能否扛起大旗?
「整个行业都希望能干掉 CUDA,包括 Google、OpenAI 等公司都在想方设法让人工智能训练更加开放。我们认为 CUDA 的护城河既浅又窄。」基辛格说。
在前不久雷科技的报道中,我们就解析了全球科技巨头组建 UXL 统一加速基金会对抗英伟达 CUDA 的动作。
图/ UXL
简单来说,巨头们基于英特尔 oneAPI 技术,正在开发一套开源软件平台来替代英伟达 CUDA 平台,允许人工智能开发者在任何 AI 芯片上运行他们的代码,也包括英伟达 GPU,核心是解除芯片硬件与软件开发平台之间的强绑定关系,打破英伟达 GPU 在开发生态上的霸权。
正如高通人工智能和机器学习主管 Vinesh Sukumar 所言:「我们实际上是在向开发者展示如何从英伟达平台迁移出来。」
软件的推倒、硬件的追赶,英特尔显然明白英伟达的成功既来源于软件,也来源于硬件,只有齐头并进才能真正追赶上英伟达的脚步,甚至干掉 CUDA,干掉英伟达的护城河。
但英特尔能不能扛起「打倒英伟达」的大旗,夺回数据中心市场的领先地位?关键可能取决于两点:
一是英特尔能不能在一众英伟达挑战者中脱颖而出,包括 AMD 以及一众全球 AI 芯片公司都不会错过英伟达 GPU「供不应求」的机会;
二是按照英特尔的路线图,在合并 GPU 和 AI 芯片两条产品线之后,代号「Falcon Shores」的下一代 GPU,能不能展现出超越英伟达最新一代 GPU 的潜力。
数据中心芯片路线图,图/英特尔
写在最后
过去一年多,AI 掀起了一场不言而喻的革命,但不管 AI 将如何改变我们的生活,芯片算力依然是底层的驱动力。
但英伟达生生占据了 AI 芯片市场的 80%,这显然并不寻常,不过人们最不满的关键其实还是:英伟达无法满足所有人。在这个前提下,不管是英特尔、AMD 还是国产 AI 芯片厂商,其实都还有机会。
换言之,英特尔 Gaudi 3 面对的还是一块「广阔天地」,自然「大有可为」。