今年的GTC,老黄又放了一堆“核弹”。
9月20日晚上11点,英伟达CEO黄仁勋的主题演讲为2022GTC揭开序幕。一个半小时的时间里,他介绍了英伟达下一代RTXGPU和支持AI工作流的新型云服务,以及各种新系统、芯片和软件。
对于游戏玩家和创作者而言,他们将获得首批基于全新NVIDIAAdaLovelace架构的GPU。较上一代旗舰GPURTX3090Ti,此次发布的RTX4090的性能将提升至前者的四倍。
但在这场演讲里,4090也只是“开胃菜”。在剩下的一个多小时,黄仁勋介绍了英伟达在企业级市场和汽车市场的进展。
首先是今年3月发布的新一代计算卡“H100”,黄仁勋宣布NvidiaH100TensorCore现在已经全面投产,预计将在10月份上市。为元宇宙开发搭建的Omniverse平台也迎来全面更新,并将推出OmniverseCloud——一款IaaS云服务产品。
而在汽车领域,英伟达公布了新一代自动驾驶芯片Thor,并放弃了此前发布的Atlan。据英伟达透露,极氪将首发搭载该芯片,时间为2025年,此外如小鹏汽车、轻舟智能等也将使用该芯片。
GeForceRTX40系列
首先是最受关注的GeForceRTX40系列显卡,会前曾有传言此次GTC40系列显卡有可能缺席,结果并没有成真。
今年GTC英伟达发布了40系列两款高端显卡,其中GeForceRTX4090将于10月12日上市,建议零售价12999元起;GeForceRTX4080将于11月推出,采用12GB和16GB显存两种配置版本,建议零售价分别为7199元和9499元起。
上一代RTX3090和RTX3080的首发价分别为11999元和5499元,40系列显卡的价格提升了不少,但相比上一代产品,40系列的性能也有了显著提升。根据黄仁勋介绍,GeForceRTX4090的性能将提升至上一代RTX3090Ti的4倍,GeForceRTX4080也比上一代产品在性能和功耗上有很大进步。
“和加速计算一样,计算机图形也是一项全栈挑战。”黄仁勋解释道,“若要实现突破,需要在架构、设计和算法方面进行创新。”
而在上述几个维度,尤其是架构和算法上,40系列新显卡都有跨越式的提升。
在架构方面,40系列显卡建立在全新的第三代RTX架构——即AdaLovelace(Ada架构)。在优化的4N工艺下,AdaGPU可以集成760亿个晶体管和超过18000个CUDA核心,比上一代AmpereGPU多了70%。
新架构下,所有三类处理器均有改进,包括:SM多单元流处理器、RTCore和TensorCore。值得注意的是,单个AdaGPU即可支持RacerX(基于物理定律的仿真)的运行。
在算法上,40系列显卡在基于深度学习的神经网络渲染上取得了突破——引入了第三代DLSS技术。
光线追踪所需的计算量近乎疯狂,CGI电影的每一帧画面渲染都需要数小时。英伟达RTX打开了实时光线追踪世界的大门,并且,通过引入基于深度学习的超分辨率技术,进一步提高了游戏帧率。
DLSS3通过将新帧和上一帧进行比较来了解场的变化,从而利用AI生成全新帧。与传统渲染相比,它能将游戏性能提高多达4倍。在这项技术的加持下,无论是对GPU性能要求较高的游戏还是受到CPU限制的游戏,都将从中受益。
老黄总结道:相较于4年前首次引入实时光线追踪技术,今天借助AI,英伟达在4年内将光追的性能升了16倍;与此同时,GPU中负责此类计算的晶体管数量并没有以同比增加,一些像素通过计算得出,而大多数像素则通过AI预测得出。
另外值得注意的是,此次英伟达只发布了两款40系列的高端显卡,这与游戏显卡市场需求疲软、英伟达急于去库存有一定关系。
黄仁勋在会后接受分析师采访时表示:终端市场目前需求疲软,英伟达减少了供应,来帮助下游消化3080、3080积压的库存,并预计用两个季度完成。对于Ada架构的新显卡,英伟达会在这个季度开始进行小规模生产,并在明年进行更多的公布。
此外,对于市场环境是否会影响4080和4090显卡的销售,黄仁勋认为,4080、4090主要针对高端游戏玩家,受到的市场影响较小。
简单来说,4080和4090两款高端旗舰显卡相较上一代性能有明显提升,有换代需求的高端玩家依然会正常购买。但对于4070、4060这些在性能上与3080、3080这些上一代旗舰性能相近的产品,为了避免影响下游去库存,英伟达会在更晚的时间点发布。
Omniverse推出云服务
互联网的下一次演化方向被视作元宇宙,而英伟达对于元宇宙的理解是“数字孪生”。英伟达于2019年正式推出Omniverse,一个用来构建和运行元宇宙应用的平台。
简单来说,Omniverse是一个实时的大型3D数据库,一个可以共享的3D世界,一个基于USD构建的网络;同时,它也是一个计算平台,使用者可以编写在Omniverse上运行的应用,这些应用如同进入Omniverse虚拟世界的门户。
此外,英伟达也编写了一些Omniverse应用,例如用于协作的Create和View,用于合成数据生成的Replicator,以及用于数字孪生模拟的IsaacSim和DriveSim。
作为一个新的计算平台,Omniverse由三部分构成:RTX计算机(供创作者、设计师和工程师使用)、OVX服务器(用来托管与Nucleus数据库的连接并运行虚拟世界模拟)以及第三部分:NVIDIAGDN(进入Omniverse的门户)。
会上,黄仁勋介绍了第二代OVX系统,后者将由AdaLovelaceL40数据中心GPU提供支持,该GPU现已全面投产。
此外,英伟达还宣布推出OmniverseCloud。这是一款Iaas产品,可连接在云上、本地或单个设备上运行的Omniverse应用。
黄仁勋介绍:新的Omniverse容器现已可以部署到云端,该容器包括用于合成数据生成的Replicator、用于扩展渲染农场的Farm以及用于构建和训练AI机器人的IsaacSim。
Omniverse上云一方面意味着将进一步方便协作,提升效率;另一方面,也意味着英伟达数字孪生业务将覆盖更大的应用场景和客户。
黄仁勋表达了自己对元宇宙的看法:未来,所有的产品都将具有数字孪生。制造商利用数字孪生模拟产品在物理世界中的作用和性能。如果不对软件的数字孪生版本进行测试,则无法大规模部署该软件所运营的的物理产品。
黄仁勋列举了很多客户案例来解释不同领域的公司如何利用Omniverse,比如为工厂、物流仓库、自动化生产线和工业厂房创建数字孪生;如何利用Omniverse实现团队互联,以全保真度可视化他们的数据并生成合成数据,从而训练AI模型,模拟数字孪生。
自动驾驶:放弃
最后,多少有点出乎意料,英伟达公布了新一代自动驾驶平台Thor。
目前,想要实现汽车中的主动安全、停车、驾驶员监测、摄像头后视镜、集群和车载信息、娱乐系统等功能通常需要不同的计算机提供支持。而未来,它们将由在中央计算机上运行的软件统一提供支持,并随着时间的推移不断改进。
去年,英伟达推出了Atlan,一款1000TOPS的SoC。虽然这款产品还没有投产,但是黄仁勋宣布Atlan不再是第一了,它将被Thor取代。
新推出的DRIVEThor平台,集成了基于Hopper的TransformerEngine、基于Ada的GPU和基于Grace的CPU。
黄仁勋表示,Hopper的Transformer引擎以及VisionTransformer的快速变革,它们都至关重要,必须纳入到下一代的机器人处理器,而Ada中多实例GPU的发明将有助于车载计算资源的集中化可将成本降低数百美元,Grace的CPU则正好拥有非常出色的单线程性能。
基于这些基础,Thor的吞吐量是上一代Atlan的两倍,交付的性能也是Atlan的两倍以上。并且,Thor能够与目前被用于量产汽车、可提供每秒254万亿次浮点运算性能的DRIVEOrin无缝衔接。
使用场景上,Thor处理器可以应用在机器人、医疗仪器、工业自动化和边缘AI系统等。
对于英伟达取消Atlan的原因,黄仁勋在会后接受分析师采访时表示,Atlan的产品包括GPU、CPU和TensorCore三个关键的架构。这三个架构,在过去两年都发生了巨大的进步。每过两年。机器人系统的研发都会迎来重大更新,这是他们做出取消Atlan直接做Thor的原因。
此外,黄仁勋还进一步透露,除了会上公布的极氪等中国车厂,到2025年,奔驰、捷豹路虎等车企的车队,都会由英伟达提供全栈式的解决方案。公司预计未来在汽车业务领域中的商业化速度以及竞争将会加剧。目前英伟达大概有110亿美金的在手订单和汽车业务相关。