智算中心,常常被定义为:提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施。但这其实是按照通用算力、智算、超算(高性能计算)这样的算力区别划分来看算力中心的划分,难免将智算中心定义“窄”了。
如果我们将智算中心看做是为智能时代的全部应用服务的话,那么这个智算中心就应该是包括了应用所需的算力、存力、运力、数据服务和算法服务等所有资源在内的新型基础设施。这些资源可能也会包括边缘计算,因此智算中心也应该是打破地域限制的。
智算中心一定是在传统数据中心基础上的革新与发展,可以看做是数据中心演进的高级形态。从这个层面开看,智算中心必然能提供多元算力、支持异构硬件、架构开放、生态友好,如果加上大的行业发展趋势,那需要绿色安全,最好最终提供的是普惠服务,有利于产业聚集。
关键硬件构成
CPU/GPU:智算中心的核心组件包括高性能中央处理器(CPU)、针对人工智能任务优化的GPU高速硬件设备。这些硬件设备提供强大的并行计算能力,加速深度学习模型的训练和推理。
高速互联网络:为了确保各个计算单元间的高效协作,需要部署InfiniBand、Omni-Path、或者基于以太网的高性能互连网络,如RoCE(RDMA over Converged Ethernet)等,保证数据在多个计算节点间快速传输。
高性能、大容量存储:满足深度学习等计算密集型任务对存储的需求,采用大容量、高速、高性能存储。
高效散热解决方案:如液冷系统、热通道/冷通道隔离等,保障高密度服务器集群稳定运行。
可靠电力供应与冗余保护:包括UPS不间断电源、双路供电系统,以及备用发电机等,确保数据中心稳定、持续供电。
机房基础设施监控:包括温湿度、烟雾、漏水等环境监测系统。
服务器硬件监控与物理安全防护。
关键软件能力
资源调度与管理系统:用于动态管理和优化计算、存储和网络资源,支持按需扩展和收缩资源池,确保高效利用资源,满足不同业务负载的变化需求。
智能运营运维系统:自动化运营运维与监控告警能力必不可少,实时反馈系统状态和异常情况,提高运维效率和系统可用性。
安全与合规系统:确保数据安全和隐私保护,防止敏感信息泄露,符合法律法规要求。
数据管理与处理系统:提供海量数据的高效存储和检索能力,用于大数据处理和分析,支持数据清洗、预处理和特征工程等。
中间件与优化工具:主要用于异构计算加速、机器学习框架优化等应用层需求。
开放的 API 与服务接口:便于 AI 应用开发与集成。
智算中心不仅继承了传统数据中心的规模化、集约化特点,还必须融入自动化运维、绿色节能等设计理念,通过引入液冷散热、模块化设计、软件优化等先进技术,实现对能源利用效率和运维管理水平的大幅提升,并且具有开放兼容的特性,灵活调度多元异构算力,支持应用创新。
在这样的背景下,青云科技以AI智算平台为支点,深入参与到这场智算中心的变革之中,提供高度智能化的资源调度能力与运营运维能力,推动智算中心成为真正意义上支撑智能时代应用需求的新型基础设施。