李彦宏在百度AI开发者大会上给出了文心一言经历2023年百模大战后的战况数据:
用户数突破2亿,服务企业8.5万家,AI原生应用数超过19万。
另外,他还透露,百度内部每天新增代码有27%是由Comate(AI代码助手)生成。
作为国内布局大模型最激进的互联网巨头之一,百度给出的这组数据,印证了大模型对于互联网公司带来的巨大影响。
实际上,大模型带来的影响远不止于此,李彦宏说,“未来开发应用将会像拍短视频一样简单。”
或许是身处这波变革的漩涡之中,也或许是错失过云计算那波时代红利,李彦宏针对大模型发表的言论一直都很激进。
无论大模型能否像李彦宏预期的那样颠覆互联网时代的生产模式,一个不可忽视的事实是,这波大模型浪潮背后,本质上依然是算力之争。
要想在缓缓开启的大模型时代获得先机,访存密集、近存计算、类脑计算、存算一体等先进制式芯片的研发,是绕不开的竞争焦点。
就在上周,在第十三届吴文俊人工智能科学技术奖颁奖典礼的系列活动上,进行了一场关于大模型时代芯片产业发展的圆桌讨论。
在这次圆桌上,中国科学院自动化所研究员&中科南京人工智能创新研究院副院长程健、中国科学院微电子所研究员尚德龙、上海科技大学教授哈亚军、北京忆芯科技有限公司首席架构师黄好城四位芯片领域专家就:
1、大模型需要怎样的云边端芯片?
2、机器人需要怎样的芯片来实现通用人工智能?
3、大模型在芯片设计中有怎样的应用?
4、芯片产业需要怎样的生态?
这四个关键问题展开了一场激烈讨论。
本文就此次圆桌讨论内容进行了不改变原意的整理,以供大家参考学习。
01 大模型时代的云边端芯片
问:大模型时代,云、边、端芯片分别具有怎样的发展机遇和挑战?
程健:要回答这个问题,我们先要看,今天所谓的大模型和过去传统模型到底有什么区别。
这其中有很多区别,但是没有太多本质区别,特别是在芯片架构上没有太多区别。
首先是云端芯片,我们看今天英伟达的GPU,它是通过不断堆显存、拓宽带宽来提升性能,除了工艺改进外,更多是通过增加硬件成本来提升算力。
对于我们来说,要想弯道超车,就要看能否通过存算一体、三维堆叠等方式,探索出一些新的路径。
云端追求的是奥运精神,更快、更高、更强,在边缘和终端侧,和云端又有着不同的场景和需求。
在边缘和终端侧,由于受到体积、成本、功耗等限制,无法追求更高、更快、更强,尤其还有不同的场景和应用需求,这时给我们做芯片其实提供了更多机会。
例如很多团队将模型和算法做到一起,有的芯片架构也变了,例如ASIC模式等。
这其中能做的东西、需要定制化的东西很多,也有更多的机会。
尚德龙:我同意程老师的见解,大模型需要高算力,这是挑战也是机遇。
大模型本质上是生成式AI模型,生成式AI模型的一大缺陷是不能生成知识,不能生成知识要如何展现通用智能,这是我要提出的一个问题。
从云边端的机遇上来看,不能只看芯片,还要结合算法来研究。
类脑计算本身是一个非常大的系统,我们是否可以从现有的算法和类脑算法融合来实现通用人工智能,这是一个值得思考的问题。
另一方面,类脑计算的一个重要出发点是高效,人脑的功率不到20瓦,一个馒头顶一天没有问题;
一台机器的功率有几百瓦、上千瓦,我们是否可以从算法设计理念上,通过融合来实现云边端的一些创新设计思路。
现在来看,无论是先进的架构、先进的封装,还是Chiplet,即便是将众多芯片封装在一起,功耗依然是个问题,在云边端用起来还会有一些限制。
这就需要一些新的设计方法、设计理念,来促进这些领域的发展。
哈亚军:我们现在进入到了一个通用智能时代,很多时候,大家希望用一个平台解决通用的问题。
实际上,在各类模型出现之前,计算架构也曾有过同样的问题——究竟应该用一个通用的计算平台,还是用专用的计算平台来解决问题?
从我的经验来说,通用芯片市场很大,难度也很高,所以只有大公司、大团队、大资本有能力进入这条赛道,因为很多东西搞通用的话,你需要有生态、工具和应用。
专用芯片的好处是应用比较明确、对象场景比较清晰,你可以找到一些约束条件,针对约束条件不断做优化,对生态等方面的要求相对少一些,这更适合高校和小公司来做。
从过去计算平台的发展经历来看,玩通用活下来的都是大公司,小公司在专用计算平台上有更多机会。
同样的经验也适用于大模型技术发展。
大模型强调通用,但是从模型设计角度来看,一个通用大模型很难通吃天下,在很多场景下,一些专用(小)模型依然会有一席之地。
黄好城:我们公司成立于2015年,从存储芯片做起。
随着大模型的出现和AI技术的发展,我们每款芯片都嵌入了一些AI相关功能,例如存算一体的融合,这项技术的出现为我们公司和国内很多非大模型方向的芯片公司带来了机遇和挑战。
就机遇来看,大模型对所有计算、存储和传输有了更高的要求,例如存储的数据量变大,包括云端、边缘端存储的内容都变多了,带宽要求也更高了,延时要求也更高了。
就挑战来看,一方面,大模型对服务器的主控芯片要求很高,消耗的能源、资源、碳排放量都很大,这反馈到芯片设计中,就成了究竟要以怎样的方式设计芯片的架构和每个模块。
从我们企业来看,在功耗设计上,每一款芯片从工艺选择、IP选型,再到每个模块的低功耗设计,对我们都提出了更高的要求,由此降低的能耗,也将提升我们的产品竞争力。
与此同时,随着大模型应用的研发,我们对存储内容的安全性也有了更高的要求。
我们存进去的资料是否有被很好地加密保护,是否能被窃取、能被探测到,我们研发芯片在做数据安全保护时,也随着国密一级、二级、三级的提出,相应的要求也越来越高。
02 通用机器人,需要怎样的芯片?
问:如何设计机器人智能芯片,推动通用人工智能发展?
程健:设计芯片,首先要知道芯片要解决的问题是什么。
机器人需要解决的是感知、规划、决策、控制几方面的问题。
这几个方面遇到的问题、需要的算法和软件有一些区别。
例如,我们原来很多机器人中做控制都是基于MCU来做的,进行一些简单的计算,决策很多都是由人工编好的,所以也很简单。
但是今天在大模型时代,原来很多手工编写的规划、决策算法,今天要用大模型来生成,这就对用于机器人的芯片提出了更高的要求:
第一,端侧主控芯片需要更大的算力;
基于大模型实现感知、认知,要求端侧主控芯片能够提供更大的算力。
第二,端侧算力能否基于一个芯片实现;
端侧要求的高算力与云端的高算力不同,云端需要做大量决策和规划,端侧的计算和在GPU中做张量计算不同,我们是否可以将这些端侧的计算需求放在一个芯片上来实现,而不是分开用几个芯片来实现。
第三,机器人需要更多智能性和自主性。
除了感知、规划、决策、控制,我们看到越来越多机器人需要有更多智能性和自主性。
例如机器人现在可以不断地和环境交互、自主学习,这就需要大量基于强化学习的计算,这样的计算又和张量计算不同,现在强化学习有很多分支,有的基于transformer方式来实现,有的以传统的马尔可夫方式来实现。
这种需要大量计算、采样、迭代的机器人应用,对于芯片提出了很多新需求。
尚德龙:具身智能机器人更强调的是拟人,现在市面上的机器人显然不具备这样的特性。
可以看到,酒店里的配送机器人、园区里的清洁机器人在遇到人时,一般都会先停下来,然后再缓慢地绕行,行动非常迟缓、给人的感受很不好。
想做到更好的感受,感知、决策就要非常快,如果按照现在的计算体系,毫无疑问,我们需要的是大算力。
如果不考虑设计方法,大算力等同于大功耗,现在电池技术的发展还赶不上计算的发展,这样的技术路径显然很难走下去,这就需要我们有新的创新。
类脑计算、大模型等都是在新的创新。
现在的计算、决策、智能,我自己的一个“偏见”是,这是一个计算的感知、计算的决策、计算的智能,这些都非常耗能。
是否可以做一个真正和人类似的智能体,这是机器人未来发展需要考虑的一个问题。
尤其是未来的具身智能机器人,例如,未来如果居家老人对康养机器人的体验非常不好,这种机器人市场也不会很好。
我是做类脑计算的,我还是很推崇将现有的计算体系和类脑计算体系融合起来,以此寻找一条新的突破口。
哈亚军:针对这个问题,我提两点感受:
第一,通用智能要与机器人结合,就意味着芯片研究的前沿重点要慢慢从云端向边缘端发展,边缘端芯片的研究会变得越来越重要。
因为机器人本质上是一个边缘端平台。
从最近产业界的发展可以看到,很多企业,特别是原来做算法的企业都在布局芯片产业,相信机器人厂商未来在边缘端也会有更多布局。
第二,虽然大模型似乎可以解决机器人遇到的所有问题,但是我个人并不这么认为,无论是机器人还是无人车,算法无法解决它们遇到的所有问题。
机器人对决策的准确性要求有时会很高,即便机器人做到了99.9%的决策准确度,但在机器人真正与人打交道时,某些场景我们对准确度的要求可能是100%。
这时,我们就不能完全依赖智能计算。
在智能计算出来之前,我们还是要有传统算法。
我的看法是,传统算法不能丢,未来世界中,传统算法和智能算法将会共存,一起通过各种方式提高决策准确性。
黄好城:人类的聪明程度依赖于之前学习到的知识,我们大脑里会将之前学到的知识存储为记忆,是否可以将之前的记忆用好决定了人类的聪明程度。
例如,当老人患上老年痴呆症、失去记忆后,他的智能也就无法体现。
我们在智能机器人上会不断感知周围环境,做图像、视频学习,在这个过程中,存储的大量数据有没有被很好地利用,在云端和边端有没有被很好地训练,这关乎机器人是否足够智能。
机器人在很多应用场景或处理突发情况时,不是一开始就能很好地模拟和训练出来,每一个端侧设备,特别是智能机器人设备,要想进入千家万户,就需要不停地学习和进步,通过对本地存储资源高效利用实现智能化。
我们之前提到的近存计算,通过对边缘端存储的数据进行再分类和预处理,甚至将一些类决策放到边缘端、靠近存储的计算芯片中,一方面可以带来更低的功耗收益,让机器人续航有更好的表现,另一方面可以减少机器人对主计算单元依赖。
03 将大模型用到芯片设计里
问:AI算法如何应用到芯片设计中?
黄好城:我们确实看到AI已经开始辅助工程师写代码,不过,在芯片设计流程中,现在的AI技术不是取代工程师写代码,而是辅助工程师写代码。
AI技术从设计方法学上带来了很多输入,工程师省掉了写细节的、重复模块的代码,可以换成AI帮你生成。
工程师更多使用AI辅助工具后,就会有更多精力参与到更高级的工作中,兼任一些架构师的角色。
他们不再需要做设计验证的角色,更多是做A、B、C方案的综合筛选,把每个芯片设计的模块化做多套方案比较,这样可以做更好的PPA(Performance、Power、Area)评估,而不是放到最后,等架构师拿到芯片设计方案后,再去做数据流、性能的仿真验证。
这对芯片前端设计有很好的提升。
当然,芯片不只有前端设计,还有后端物理实现。
在后端物理实现上,AI也有很多应用,因为物理实现上有很多自动布局布线的工作,原来都是靠EDA软件来实现的。
我们现在在和国内一些厂商一起做AI算法融合,用来提升我们自动布局布线效率,尝试各种摆放方式,让芯片面积做得更好更合理。
哈亚军:这个问题总结而言就是,AI for IC、IC for AI。
我们看到,现在国内外很多EDA公司确实在整个EDA flow的各阶段考虑让人工智能改变此前的设计方法或工具,我们可以看到很多这样的例子。
另外,IC也可以加速智能EDA工具发展。
尚德龙:我是国内比较早接触EDA工具的人。
实际上,新技术发展一直都在不断融合到芯片设计流程中,现在人工智能技术的发展也会融合到IC设计流程中。
不过,包括IBM、Intel,他们核心的X86芯片并不是基于EDA工具来做的,而是他们7-8人的一个小团队来做的。
所以我的观点是,AI可以赋能IC,从技术发展角度来看,AI也确实逐渐在增强EDA工具的效率和水平,但是如果要让AI去替代设计者做包罗万象的芯片设计工作,还有待时日。
程健:我比尚老师更激进,我个人认为,AI技术至少在芯片设计领域一定会完全取代人类。
之所以这么说,是因为,参考人工智能技术发展经历,AI能够做好的是下围棋、打游戏这样有明确规则的事。
以下围棋为例,AI不仅会下围棋,甚至连对手怎么下的都看得一清二楚,这类场景,AI往往比人做得更好。
我们再来看芯片设计,芯片设计的目标也很明确,关键就是面积、功耗、功能,这些都是可以规则化、量化的目标,而芯片的布线、布局也有清楚的要求。
从这个角度来看,我认为,AI做芯片设计必然会取代人类,而且一定会比人类做得更好,当然,这需要时间。
我们现在AI做布局、布线已经做得很不错了,但是做芯片设计还有些问题,有哪些问题呢?
我举三个例子:
第一,基于神经网络或transformer的AI模型,现在在执行任务的精确性上还有欠缺。
芯片设计往往需要很高的精确度,中间有一个小BUG,整个芯片就废掉了,将来如何将精确性在AI芯片设计中体现,让它越来越精确,这是个有待解决的问题。
第二,需要将工程师的经验、知识转化为可量化的数据。
做芯片设计很多是靠工程师长期积累的经验,这些经验有些是知识,是可以描述的,有些是不能描述的,这就需要将这些经验、知识转化为可以让AI学习的可量化、可规则化的数据。
第三,芯片设计的数据难获取。
AI下围棋下得好,是因为DeepMind在设计AlphaGo的时候收集了大量棋谱,可以说,没有AlphaGo没学过的棋谱。
在芯片产业中,很多数据是无法在互联网上检索到的,开源的项目也很少,很多芯片公司也只能拿到一部分数据,这对于AI学习来说会是一个很大的问题。
我认为,如果能将这三个问题解决掉,未来AI一定可以取代人类做芯片设计。
04 AI芯片,重在生态
问:如何从技术创新、人才培养、市场需求三方面,共同促进芯片生态建设?
黄好城:我认为,最重要的是市场需求。
客户、消费者对产品有需要才会花钱买单,有了这些资金的支持才能推动企业发展,带动产学研合作,大家也才有一个良好的就业环境,这是一个供需关系。
国内现在一个很好的趋势是,各大甲方都更愿意用国内的芯片和存储类产品了,已经不仅仅是尝试,而是会有大规模出货。
对芯片公司而言,我们研发新一代主控芯片时,也很愿意用国内IP公司提供的IP产品,我们现在的控制器、Chiplet技术,甚至RISC-V CPU已经在用国内供应商。
我们用了国内供应商的CPU后,也在帮他们调教他们的CPU,给他们提了很多建议。
就学校而言,每年有更多优秀毕业生带着在学校掌握的AI技术进入公司,对于企业来说也是很好的资源,这才能让我们整个生态不断发展起来。
哈亚军:我重点说一下人才培养。
无论是芯片还是人工智能,这两个产业有一个特点是,某种意义上都是产业界领先于学术界,对人才培养有很多特殊的要求。
就人才培养而言,过去是将更多注意力放到培养学生上,而要将这件事做好,其实教师也需要培养,所以我们需要建立一整套新工科培养体系,这套体系里既能培养学生,也能培养老师。
从教师培养角度来说,要每隔几年,让老师到企业中待几个月,了解企业实际进展和需求,包括老师在学校讲课的讲义,学校的企业导师可应该及时给出反馈,让他们看看现在这些教材是否符合企业需求。
从学生培养角度来说,要能增加流片的机会,增大学生去企业实习、增加学校和企业一起做项目的机会。
学校和企业的定位还是有很大不同的,企业追求盈利,学校追求科研,双方合作也需要一个成熟的合作模式。
尚德龙:这个问题我感触很深,但是我想强调的只有两个字——生态。
产品的生态,科研的生态,人才培养的生态,一个良好的生态才能真正把这件事做起来。
程健:接着尚老师讲的生态,我想说,其实芯片从设计、生产、应用到反馈,形成一个正向反馈很重要。
这其中一个很重要的环节是要有人用,只有用起来才能有正向迭代。
芯片越没人用越难用,越难用越没人用,这会形成一个恶性循环。
如何用起来?
这个问题不是哪一家企业、哪一所高校,甚至哪一个环节能解决的,这是一个需要从整个生态全局考虑的问题。
需要我们从人才培养,教育界、企业界一起联合起来,给我们国产芯片一些机会。
我们的硬件生态是否可以通过国家和企业一起推动,将芯片很便宜或者免费送给高校做人才培养用起来,这是从生态层面我认为值得考虑去做的一个问题。
第二,任何行业要做好人才培养,很重要的是要“有利可图”。
今天这么多人做AI,其实本质上是因为今天大家在AI领域有很多工作机会,企业也能赚到钱。
芯片其实更需要钱,需要更多时间,担更多风险,走更长的路才可能做好。
所以一定要有资金投入,企业和个人都能在这个过程中赚到钱,才能将这件事做好。
我想,只有BATH,以及国企央企,这些真正有资源、有应用场景的企业加入进来,才能做好大模型时代的芯片。