Vast Data 正在引入一种新的云 AI 架构,该架构在 Nvidia 硬件上使用其并行文件软件,并由 CoreWeave 部署。该架构旨在提高 GPU 集群的性能,同时为客户提供多租户。
在下周的 Nvidia GTC 活动之前,Vast Data 宣布它已将其并行文件操作系统放置在最新的 Nvidia BlueField-3 数据处理单元上。DPU 将卸载存储功能并提高用户的安全性和多租户,让 GPU 处理 AI 工作负载。
NAND Research的分析师兼创始合伙人史蒂夫·麦克道尔表示,DPU的这种使用主要集中在该技术的前景上。Vast 的软件通常使用专用服务器,但在这种架构设计中,某些任务被卸载到 DPU,并且 DPU 能够直接与 GPU 集群通信,因此不需要单独的服务器。
“这让这台机器可以自由地做人工智能(工作负载),”他说。
将 DPU 用于 AI
新架构将首先由 CoreWeave 部署,CoreWeave 是 Vast 于 2023 年 9 月开始合作的 GPU 云服务提供商。据 Vast 称,BlueField-3 DPU 通过卸载数据处理来提高集群的效率,这意味着 I/O 需要更少的 x86 服务器。
根据Vast Data全球业务发展副总裁John 毛的说法,通常通过为用户提供对物理服务器的root访问权限来获得最大的GPU性能。这允许在后端看到所有内容,这对于服务提供商或客户的安全来说都不是理想的选择。使用 DPU 上的 Vast 操作系统,客户和服务提供商都有一定程度的隔离,因为他们仍然拥有 root 访问权限,但只能通过 DPU。
McDowell说,包括CoreWeave在内的云提供商的大型GPU集群主要在多个客户之间共享。甚至内部 GPU 集群也在不同团队之间共享,因此多租户成为优先事项。
“任何使[多租户]更简单的方法对服务提供商来说都更好,”他说。
McDowell说,这种架构是有益的,因为它在物理上也隔离了软件堆栈。这允许 GPU 计算在不暴露客户正在运行的内容的情况下访问客户。
不断扩大的硬件合作伙伴
除了引入新的 AI 架构外,Vast 现在还与 Supermicro 合作开发从存储到计算的全栈 AI 产品。这旨在为服务器提供商和超大规模提供商提供高性能的软件和硬件组合,用于使用 Vast 软件和 Supermicro 硬件的 AI 工作负载,并获得 Nvidia 认证。
Vast是一家软件公司,但其产品在特制的硬件阵列Ceres上销售。该阵列结合了 BlueField-2 DPU、存储级内存和四级单元 SSD 技术。从那时起,它开始拓宽其硬件方法。2023 年 4 月,Vast 软件开始在 HPE Alletra MP 硬件上发货,这是 Vast 与传统存储播放器的首次硬件合作伙伴关系。Futurum Group 分析师 Mitch Lewis 表示,借助 Supermicro,Vast 正在更坚定地进入软件定义存储领域,因为它对特定硬件的依赖程度较低。
“由于软件定义存储提供的灵活性,它越来越受欢迎,”他说。“然而,为了简单起见,许多客户最终更愿意购买集成解决方案。”
但麦克道尔说,Vast对Supermicro的关注也集中在服务提供商上,包括那些在云中提供AI功能的服务提供商。