全球IP大厂安谋19日宣布通过将Arm Kleidi技术整合到PyTorch和ExecuTorch,促使新一代的应用在Arm CPU上运行大语言模型。
Arm 指出,Kleidi 汇集了最新的开发人员赋能技术和关键资源,目标在于推动机器学习技术堆叠中的技术协作和创新。 透过这些重要进展,Arm 致力于为每一位ML 技术堆栈的开发人员提供更为顺畅的体验。
Arm 策略与生态部开发人员技术副总裁Alex Spinelli表示,Arm 正与领先的云服务供应商和框架设计者紧密合作,以打造便捷的开发环境,让软件开发人员能够轻松地在基于Arm架构的硬件上加速AI和ML工作负载。 自该技术推出的四个月以来,Kleidi 已在Arm CPU上加速开发并显著提升主要的AI性能。 Arm 与 PyTorch 社区的紧密合作,印证了该技术可大幅减少开发人员利用高效 AI 所需的工作量。
在云端,Kleidi 以利用Arm Compute Library强化 PyTorch 带来的成果为基础,为世界各地在 Arm 平台上优化 AI 的开发人员打造蓝图。 使开发人员免去其不必要的工程工作,以便开发人员能将Arm视为运行其关键ML工作负载的首选平台。
做为实现此一愿景的关键一步,Arm 直接与 PyTorch 和 TensorFlow 进行 Arm Kleidi Libraries (函式库) 的整合合作,这包括将基本的 Arm 函式库整合到上述的领先框架中。
重要的是,这代表着当新的框架版本发布时,应用开发人员能够自动地从其大幅的效能提升中获益,而无需额外在Arm平台上进行建构。 这项投入已对合作伙伴关系产生了正面的影响。
Arm 聊天机器人展示由 Meta Llama 3 LLM 所驱动,并运行在亚马逊网络服务公司 Graviton 处理器上,首次在主线 PyTorch 中实现了实时聊天响应。 根据在 AWS Graviton4 上所测得的资料显示,透过将 Kleidi 技术整合到开源 PyTorch 程序库,词元首次响应时间可加快 2.5 倍。
Arm 看好,通过优化 torch.compile 来更有效率地使用通过 ACL 提供的 Kleidi 技术,在基于 AWS Graviton3 上所测得的资料显示,各类 Hugging Face 模型推理工作负载上的效能可提升 1.35 至 2 倍。
这些仅是出色的云端范例之一,却代表在Arm平台上普及ML工作负载时可实现的性能加速类型。 Arm 将持续投入,以确保开发人员的 AI 应用,从云到边缘都能完美运行,其中包括新功能与前代的兼容,进而使得开发人员能够立即从中获益。
随着新的语言模型版本快速地推陈出新,生成式 AI 掀起了一波 AI 创新热潮。 Arm 持续与ML 技术堆栈的各个关键部分紧密合作,携手 AWS 和 Google 等云服务供应商以及 Databricks 等迅速壮大的 ML 独立软件开发商社区,进而协助开发人员立于技术的前端。
Google Cloud Compute 产品管理资深总监 Nirav Mehta 表示,Arm 和 Google Cloud 致力于为开发人员提升 AI 的访问和敏捷性,而 Kleidi 代表了以软硬件共同优化满足 AI 需求所获得的重要进展。 随着客户正积极采用基于Arm架构的定制 CPU - Axion,期待在整个ML 技术堆栈中为客户带来更为顺畅的整合体验。
Databricks 软件工程师 Lin Yuan 表示,利用 Databricks Data Intelligence Platform 进行 AI 和 ML 工作流程的企业,将可受惠于跨 ML 软件堆栈的 Arm Kleidi 整合带来的效能优化。 藉由Databricks ML Runtime集提供支援的Arm架构AWS Graviton处理器,企业可以从各种ML函式库的加速中受惠,同时降低云端服务供货商的成本。
协助开发人员将Arm提供的资源应用到实际案例中至关重要,为此,Arm 创立范例软件堆栈和学习资源,向开发人员展示如何在Arm CPU上构建AI工作负载,进而迅速推动了Arm系统的广泛采用,并加快了开发人员在Arm系统上的部署速度。 第一个案例是通过 Kleidi 技术加速聊天机器人的实现,今年稍晚,ML Ops 和检索强化生成也将添加至这些应用案例中,并计划于 2025 年实现更多成果。
基于 Kleidi 在设备端的发展态势,KleidiAI 还将被整合到 ExecuTorch(PyTorch 新的设备端推理运行 runtime)。 这项整合预计将于2024年10月完成,并有望为目前正在ExecuTorch中进行生产测试或推出的装置端应用带来显著的效能提升。 目前已完成的多项 KleidiAI 整合包括与 Google XNNPACK 和 MediaPipe,以及腾讯的混元大模型,为其实际工作负载带来了显著提升,其影响不言可喻,诚如此聊天机器人所展示。
Kleidi 将继续与 PyTorch 和 ExecuTorch 的各版本以及其他主要 AI 框架进行整合。 从云端数据中心到边缘端装置,开发人员现在可以即刻在各类设备上基于 Arm 平台高效率的运行高效能 AI 工作负载。 Arm将继续积极地为 PyTorch 社群推出强化功能,并专注于针对各种整数格式提供量化优化,进一步提高效能,使 Arm CPU 能大规模地无缝运行次世代的 AI 体验。
PyTorch 正在大规模的推动ML开发领域的创新。 近日,Arm 加入 PyTorch 基金会成为 Premier 成员,这对于 Arm 的 AI 之旅来说,无疑是一个重要时刻。 Arm 将持续致力于帮助全球各地的开发人员,在 Arm 平台上充分发挥端到端 AI 的潜力,从而塑造尖端的 AI 和应用功能。