Meta 首席科学家 Yann LeCun(杨立昆)近日发表多篇演讲,分享他对人工智能未来的深刻见解。 作为深度学习领域的先驱者和 2018 年图灵奖得主,LeCun 的观点引发了广泛关注。
他近日的演讲内容,主要围绕 AI 的需求与现状,现有 AI 的局限性,开源 AI 平台的必要性以及通往人类水平的 AI 道路等多个方面。 在哥伦比亚大学的演讲中,由于他的讲说对象是研究生,因此特别针对合适的研究主题多所探讨。
LeCun 曾在多次公开驳斥「AI 威胁论」,他认为当今的大型语言模型缺乏一些关键的能力,如持久记忆、推理、规划和理解物理世界。 在他看来,在他看来,AI 只是证明可以操纵语言,但并不聪明,而人的智力是非常复杂的,所以真正的通用式人工智能不会到来。
不过,这并不代表他完全怀疑人工智能,他只是认为需要新的方法。
LeCun 认为,人们确实需要人类等级的 AI,因为在未来,人们大多数人都会戴着智能眼镜或其他类型的设备,人们会与它们交谈,这些系统将拥有助手,也许不仅仅是一个,可能是一整套助手。
庥更喜欢人类层级的智能这个词。 人们在 Meta 内部也采用了 AMI 这个术语,意思是「高端机器智能」,这个字还有点特别,它在法文中是「朋友」的意思。
那么,如何才能让机器达到人类等级的智能呢? 机器需要具备一些基本能力,例如学习、记忆、理解物理世界、拥有常识、能够规划和推理,行为合适,不会变得不守规矩或危险。
他指出,现有的 AI 系统通过一系列神经网络层来进行推理,但这非常有限。
透过优化系统的输入和输出兼容性,才能实现更强大的推理能力。 事实上,任何计算问题都可以简化为最佳化问题。 未来的 AI 系统将基于这种优化推理的原则,而不仅仅是简单的前馈传播。 这种基于能量的模型,可以用来解释输入和输出之间的兼容性。 如果输入和输出兼容,系统会给出低能量值,反之则是高能量值。
目前的 AI 热潮集中在大型语言模型上,这些模型通过大量的文字数据训练,预测下一个词语,基本上就是自回归的预测方式。 这些系统在一定程度上模拟了系统一思维,即通过简单的模式进行反应,但无法像系统二一样进行复杂的推理或规划。 很多人认为,只要让现有的 AI 模型更大,使用更多的数据训练,就能达到人类的智慧。 但我认为这是非常错误的。 这些方法不会让人们实现真正的智能行为,真正的智能需要的是能够规划、推理,并且能理解世界的 AI 系统。
LeCun指出,世界模型的作用是预测一系列行动的结果。 这些行动可以是自己计划采取的,也可以是其他人或代理人的行动,甚至是某些将要发生的事件。
这个世界模型帮助人们进行规划。 透过它,人们可以让机器设定一个任务目标,评估是否达成了某些条件。 同时,人们也可以设定一些「护栏目标」,确保在执行任务时不会发生意外,例如保证没人会受伤。 这些条件像是一个个「成本函数」,人们会优化它们,让任务顺利完成。
与传统方法的不同之处在于,人们的「世界模型」是通过学习得到的,而不是通过一堆手写的方程式。 这些模型会通过数据进行训练。 当然,这里有两个难题。 首先,人们无法比现实时间运行得更快,这是一个限制。 其次,世界并不是确定性的。 即使物理学家告诉人们世界是确定的,但人们也无法完全预测,因为人们无法获得世界的所有信息。
每次给「世界模型」输入不同的潜在变量时,模型都会给出不同的预测结果。 这样,人们就能处理不确定的情况。 人类和动物也是这样规划的。 人们会进行分层规划,也就是人们会在不同的抽象层次上去理解和规划世界的状态。
人们需要建立一个可以在不同抽象层次上运作的「世界模型」。 这种模型会帮助 AI 处理从高层次的目标到低层次的具体行动的转换,如何训练这种模型目前还不是很明确。 这引出了一个被称为「目标驱动型 AI 系统」的概念。
LeCun 表示,他我两年半前写了一篇关于这个构想的愿景论文,并在网络上公开了它。 这篇论文介绍了一个「认知架构」,其中包含了各种组件,例如感知模组(用于估计世界状态)、记忆模块、世界模型、成本模块(用于定义任务目标或限制条件),以及执行优化的「行动者」。
在过去几年中,监督学习在自然语言处理领域非常成功。 它的核心思想是,系统从大规模数据中自我学习,输入和输出没有明显的区分,系统会通过恢复部分破坏的输入来学习理解整个情境。 但尽管如此,现有的 LLM 依然无法胜任许多日常任务。
现有的 AI 在处理现实世界的复杂性上仍有很大不足,而这些挑战主要来自于对现实世界的感知和移动控制的复杂性。 解决这些问题需要新的计算思路和模型。
目前科学家使用了一种叫做「对比学习」的方法,例如来自 Google 团队的 SIMCLIR,团队成员包括 Jeff Hinton。 还在90年代推动的「孪生网络」。 对比学习的一个问题是,它产生的嵌入表示通常维度较低,结果有时会显得退化。
在图像识别的背景下,可以拿两张相同的图片,把其中一张破坏或改变一下,例如调整大小、旋转、改变颜色,甚至掩盖图片的一部分。 然后,训练一个编码器和一个预测器,让它从损坏的图片中预测出原始图片的表示。 训练完成后,可以移除预测器,把编码器当作分类器的输入,接着用监督式学习来完成任务,例如辨识图片中的对象。
这种方法在从图像中提取通用特征方面非常有效。 相较之下,有些使用产生模型的系统,例如自动编码器、变分自动编码器等,效果不如联合嵌入架构。 这种联合嵌入的方法在多项任务中表现出色,尤其是在最大化编码器提取的信息量时效果尤为明显。
为了实现这一点,人们使用了一个叫做「方差 - 协方差正规化」的技巧。 这个方法确保每个编码器输出的变量有足够的方差,同时也尽量减少这些变量之间的相关性,确保每个变量都是独立的。 还有一种非常有效的方法叫做「蒸馏法」。 蒸馏法透过两个编码器共享权重,其中一个编码器的权重是另一个编码器权重的时间平均值。 这种方法虽然原理上有些神秘,但实际效果非常好,像 DeepMind 的 BYOL 和 Meta 的 Dinov2 等模型都是基于这种方法建构的。
人们已经在一些简单的任务上测试了这个系统,例如在迷宫中移动物体、推动物体到指定位置等任务上,结果都非常好。 人们也在一个复杂的任务中测试了这个系统,例如通过机械手臂移动桌面上的物体,并成功实现了目标。 这证明了系统的强大能力。
针对相关领域的研究生,LeCun 提出五个主要建议:
1. 放弃生成模型,转向使用联合嵌入预测架构。
2. 放弃机率模型,转向基于能量的模型。
3. 放弃对比学习方法,采用正规化方法。
4. 放弃强化学习,强化学习不适合达到人类层次的 AI。
5. 不要在 LLM(大型语言模型)上浪费时间。
LeCun 认为,LLM 并不会是下一场 AI 革命的关键,也不会帮助系统真正理解物理世界。 更重要的是,大公司已经投入大量资源研究 LLM,没有太多可以贡献的空间。 虽然 LLM 目前在许多领域有应用,但它们的寿命大概只有三到五年。 以后,LLM可能会成为更大系统的一部分,但主流架构将会不同。 如果想找一份工作,可以考虑从事 LLM 相关工作,但未来的 AI 革命不会依赖于此。
他表示,人们现在能使用的数据主要是英文文本,涵盖范围很有限。 未来的 AI 系统需要在全球范围内训练,能够访问不同语言和文化的数据,这样才能代表所有人类知识的宝库。
这种系统需要全球合作,分布式训练,才能确保它不仅服务于少数公司或国家的利益。 人们不能只依赖几家美国公司提供的 AI 模型,因为这对全球许多政府来说是不可接受的。 就像新闻界需要多样化的声音,AI 系统也需要多样性。
总的来说,如果人们做得对,AI可能会带来新的知识复兴,类似于15世纪印刷术带来的革命性变化。 人们应该努力朝着这个目标前进,让 AI 真正放大人类的智慧。