金秋九月,推迟两月的2022世界人工智能大会(WAIC)在上海举行。在美国刚刚对华限售英伟达和AMD高端GPU(图形处理器)的背景下,AI/GPU成为本届大会除元宇宙之外的另一大“流量密码”。
芯片是AI的基石。在“WAIC 2022”评选出来的八大“镇馆之宝”中,上海天数智芯的“智铠100”和壁仞科技的通用GPU芯片BR100系列入选其中,成为业界关注的焦点。
记者注意到,不只寒武纪、壁仞科技、燧原科技、瀚博半导体等这些AI芯片公司展示了最新的芯片产品,百度、华为等科技大佬也展示出了AI相关的硬件。
另外,在全民关“芯”的背景下,记者在一些AI芯片论坛上注意到,国内AI芯片公司已不止于对外宣扬算力理论峰值和未来愿景了,而把重点更多地放在了算力密度、能源效率、生态合作等话题上。
资深产业分析师黄烨锋表示:“从今年的新品和生态更新中,能看到国产GPU/AI芯片企业在走向成熟。发布POD(智算机)、集群,强调系统和软件生态的重要性,并将其落地转化为生产力,无一不体现着现在的国产AI芯片企业已经脱离了过去讲故事、卖情怀、谈愿景的初期阶段,朝着更具切实意义的方向迈进。”
算力不是看理论峰值
据了解,壁仞科技通用GPU芯片BR100采用了台积电7nm制程,单芯片峰值算力可达每秒千万亿次浮点运算,打破了全球通用GPU算力纪录;同样采用7nm工艺的天数智芯首款云端推理通用GPU产品——“智铠100”,于今年5月成功点亮,经后续测试修正后即可量产;成立于2018年的瀚博半导体则展示了国产云端7nm GPU芯片SG100,据悉该芯片是集渲染、AI于一体的全功能GPU,而云游戏、云手机、云桌面、云计算等元宇宙关键性应用场景正是其所要发力的重点领域。
值得一提的是,专注云端算力的人工智能公司燧原科技发布了高性能AI加速集群服务器产品云燧智算机(CloudBlazer POD),里面内置了云端AI训练芯片“邃思1.0”和“邃思2.0”,云燧智算机及集群方案的诞生,也让燧原完成了芯片、板卡、服务器、集群算力中心解决方案的覆盖。
燧原科技创始人兼COO张亚林对记者表示,从前些年开始,AI模型参数规模就以每3个月提高一倍的速度在发展,如今模型参数已经发展到了千亿,甚至万亿级规模了。“大规模集群是AI计算的必需品。”他指出,“算力底座不仅是芯片,还有板卡、软件,更重要的是系统一体化。而这块除了美国友商之外,中国国内能实现的还非常罕见。”
张亚林还指出,如何通过集群和系统的方式使AI大模型达成更高的生产力,已经成为一个关键问题。“我国东数西算工程的落地,不仅对能效、算力密度有要求,还在部署、运维、集成等方面提出了非常高的交钥匙一体化需求。”他说,这是云燧智算机和集群诞生的背景。
“在AI技术、AI芯片发展到一定阶段后,有越来越多的芯片企业开始强调有效算力、算力效率、算力密度之类的概念,且从端到云的不同企业都在谈这些事。”黄烨锋注意到,今年WAIC不止一家企业用PUE(Power Usage Effectiveness,数据中心总能耗/IT设备能耗)来衡量能源效率,这是一个更偏系统层面的指标。
而在单个AI芯片层面,瀚博半导体创始人兼CEO钱军则在人工智能大芯片产业落地论坛上指出“评价算力,不能只看它的绝对值”,并提出了“算力密度”的概念,该概念可用来衡量一家芯片企业的实力。
如何理解算力密度?钱军将其分为两个部分:一是芯片单位面积内可达成的算力,比如一平方毫米芯片的算力如何;二是每瓦性能(Perf/W),即每瓦功耗能够提供多大的算力。而算力密度在具体业务中的性能表现可从最大吞吐率、最大吞吐率下的时延和超低时延下的吞吐率这三个指标的对比中得出。
与算力密度相关的还有“算力网络”。“现在,我国数据中心能耗每年都有10%以上的增长,每年的电费有近3%是服务于数据中心的。”中国移动(上海)产业研究院技术部总经理阴启明指出,“算力网络是将不同的算力孤岛做连接,降低算力成本、提高算力可用性,如将东数西算工程与‘双碳’目标匹配。”
“从企业的角度来看,更低的TCO(总拥有成本)才是追求算力密度的实际目的:以更低的成本获得相同的有效算力,并且散热、电费、运维之类的成本也需要足够低。国家与企业两者有着异曲同工的目标,都要求芯片能达成更高的算力效率和算力密度,这应当是这两年的共识了。”黄烨锋说。
国产AI芯片企业走向成熟
在钱军看来,芯片及其衍生的产品从来不是“单打独斗”的存在。对此,黄烨锋持有类似观点。“当我们到具体业务中去看算力和效率的时候,就不是拼芯片堆料的事情了,还涉及到系统级硬件、软件框架、库、工具链、生态这种难度显著增大的组成部分。”他说。
在这些方面的建设上,英伟达是座高山,其余AI芯片公司目前只能望其项背,国内同行都对英伟达的生态建设水平感到有些无奈。英伟达CEO黄仁勋曾表示,开发者是英伟达的重要财富,目前英伟达全球开发者近300万,在其CUDA(英伟达推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题)计算架构平台上有超过50万个开发者,其中包含了百度、腾讯、阿里巴巴等大型跨国企业。
复旦大学芯片与系统前沿技术研究院副研究员陈迟晓则用了通俗易懂的话语阐述了生态对开发者的重要性和凝聚作用,他说学生在使用CUDA时碰到bug,网上一搜就能找到不少人也遇到了相同问题和解决方法,庆幸的是国内AI企业也在重视生态方面的建设了。
为破解硬件性能上的“单打独斗”并不能将芯片功力全部发挥出来的问题,瀚博半导体更新和完善了软件平台VastStream,其不仅能加速各类AI应用的部署,例如计算机视觉、视频处理、自然语言处理、搜索与推荐、算子自定义扩展等,还提供了系统管理等三大管理工具,方便客户部署。同时,VastStream的基础软件栈功能也变得更加丰富。
壁仞科技也发布了类似的BIRENSUPA软件全栈,从驱动、硬件抽象层、编程平台、框架,到具体的解决方案和应用。除了壁仞GPU自身架构特性相关的接口外,BIRENSUPA框架层支持PyTorch、TensorFlow和百度飞桨PaddlePaddle,证明了产品兼容性。
要真正释放集群作为生产力工具的价值,燧原科技认为软件是关键要素。燧池智算平台是燧原科技的软件和生态平台,其结合强大的云燧AI算力集群和先进的大规模算力资源调度,能为用户提供人工智能模型生产及应用发布的全流程服务,能够一站式满足复杂的人工智能业务场景对人工智能服务的需求。
“从底层硬件(芯片到板卡,再到服务器与集群),到中间层的燧池软件平台,以及上层的应用,包括各种网络模型,如视觉模型、语音模型、推荐模型、多模态大模型等。今年不少国产AI芯片企业都开始强调自家的‘一体化方案’,而着墨于系统和软件平台,体现的也是芯片的真正落地。”黄烨锋说。
国内这些AI芯片企业虽然一直都在做软件,但在今年更加注重落地的WAIC上,软件、生态等的重要性更加凸显了出来。黄烨锋认为,软件及各种框架、库、中间件的完善程度才是一家AI芯片/GPU企业是否走向成熟的最直观表现。
芯谋咨询研究总监王笑龙也认为,“(AI芯片)设计得再好再花样多,大家都不用,这搞出来有啥意义?所以关键还是要有合适的应用场景,让大家都用起来。”
“发布POD、集群,强调系统和软件生态的重要性,并将其落地转化为生产力,无一不体现着现在的国产AI芯片企业已经脱离了过去讲故事、卖情怀、谈愿景的初期阶段,朝着更具切实意义的方向迈进。或许对于整个行业而言,这些都是AI芯片从初期步入成熟期的开端。”黄烨锋说。