英特尔于Hot Chips 2024发表四篇技术论文,分别介绍Intel Xeon 6 SoC、Lunar Lake客户端处理器、Intel Gaudi 3 AI加速器和OCI小芯片,并公布IntelXeon 6 SoC(代号Granite Rapids-D)最新细节,预计2025年上半年推出。
英特尔此次分享从数据中心、云和网络,到边缘和PC等各种AI应用场景的最新进展,展现自家技术的深度与广度,其中包括业界最先进、用于高速AI资料处理的首款全面整合光学运算互连(OCI)小芯片。
英特尔网络暨边缘运算事业群技术长Pere Monclus指出,英特尔持续为消费性和企业AI应用推出各类平台、系统和技术,创造新的可能。 随着 AI 工作负载加重,公司运用丰富的业界经验充分了解客户需求,进而推动创新、发挥创造力并达到理想的商业成果。
虽然更高性能的芯片和更大的平台带宽至关重要,英特尔理解到每个工作负载都面临独特挑战,专为数据中心设计的系统无法轻易地直接挪到边缘使用。 英特尔对于跨领域运算的系统架构具备受肯定的专业知识,此绝佳优势将推动新一代AI创新。
英特尔院士暨网络与边缘运算芯片设计工程师Praveen Mosur说,基于全球超过9万次边缘部署所累积的知识经验,这款SoC将成为英特尔目前为止最符合边缘应用的最佳化处理器。 从边缘装置扩展到边缘节点,通过单系统架构和整合的AI加速功能,企业能更轻松、更有效率、更保密地管理从数据撷取到推论的完整AI工作流程,有助于改善决策、提升自动化程度,为客户创造价值。
Intel Xeon 6 SoC 结合Intel Xeon 6 处理器的运算小芯片以及基于Intel 4 处理技术打造的边缘优化I/O小芯片,使这款SoC的效能、能耗效率和晶体管密度与先前相比都有显著改善。 其他特色包括高达32个通道的PCIe5.0、高达16个通道的CXL2.0、双端口100G以太网等。
Intel Xeon 6 SoC 还有专为提高边缘和网络工作负载效能和效率的设计,包括新媒体加速,强化实时 OTT、VOD 和广播媒体的视频转码和分析能力; 提高推论效能的Intel Advanced Vector Extensions和Intel Advanced Matrix Extensions,可实现更有效率网络和存储效能的Intel QuickAssist技术。
另外,针对客户端CPU SoC资深设计工程师Arik Gihon探讨Lunar Lake客户端处理器,以及其设计如何提升x86处理器的能耗效率,并提供领先的核心、绘图处理与客户端AI性能。
全新P-core和E-core有着惊人的效能,与上一代产品相比,系统单芯片功耗可降低高达40%。 新的神经元处理单元NPU速度最多可提升4倍,执行生成式AI任务的表现优于上一代产品。 此外,新的Xe2 GPU核心也将游戏和绘图效能提高到上一代的1.5倍。 Lunar Lake 的更多详细信息将在 9 月 3 日的 Intel Core Ultra 发布会中分享。
至于AI加速器 Gaudi 3.首席设计工程师Roman Kaplan介绍需要大量计算能力的生成式 AI 模型训练和布署。 随着系统从单节点扩充到数千个节点的大型丛集,也带来了巨大的成本和能耗挑战。
Intel Gaudi 3 AI 加速器运用优化的架构改善计算、内存和网络架构,解决了上述的问题; 透过采用高效率的矩阵乘法引擎(MME)、双阶层快取整合和广泛的RoCE网路通讯等策略,Gaudi 3 AI加速器能够实现显著的效能和能耗效率表现,使AI数据中心的运作更具成本效益与可持续性,解决布署生成式 AI 工作负载时的可扩展性问题。
英特尔整合光学解决方案(IPS)事业部展示业界最先进的首款全面整合光学运算互连 (OCI) 小芯片,能与英特尔 CPU 共同封装并处理即时数据。
首席工程师暨光学整合负责人Saeed Fathololoumi介绍OCI小芯片,其设计可在长达100米的光纤上双向支持64个通道、32 Gbps资料传输。 Fathololoumi 也说明 OCI 小芯片如何满足 AI 基础设施对更高带宽、更低功耗和更大覆盖范围日益增加的需求。
英特尔的OCI小芯片使高带宽互连获得重大进展,可实现未来CPU/GPU集连接的可扩展性和新式运算架构,包括数据中心和高效能运算(HPC)应用的新兴AI基础设施,也可达到一致的存储器扩充和资源分散。