最近,Sequoia 合伙人 Stephanie Zhan 在投资了一家新机器人初创后说道。
无论是在物流、车厂试点的人形机器人,还是四足机器狗,都要有脑子。过去,脑子要定制,「专款专用」,现在,不必了。
最近,位于匹兹堡的机器人初创 Skild AI 声称,已经开发出一种通用的智能系统。它就像一个通用的智能模块,可以接入不同机器人,让他们立刻获得一些基本能力,如爬坡、跨过障碍、识别和捡起物品。
7 月 9 日,Skild AI 正式宣布筹集到 3 亿美元 A 轮融资,公司估值达 15 亿美元。投资人阵容也非常强大,涵盖科技界、顶尖风投甚至学术机构。
贝索斯和孙正义的软银都出现在领投名单中,他们均以长期投资视野著称。Lightspeed(领投)、Coatue(领投)、Sequoia、Menlo Ventures、General Catalyst 等都是全球知名的顶级风投,也出现在投资名单中。卡内基梅隆大学的参投也表明,Skild AI 技术得到学术界认可。
Skild AI 由两位前卡内基梅隆大学教授 Abhinav Gupta 和 Deepak Pathak 于 2023 年 5 月创立,长期目标是开发扎根于物理世界的通用人工智能 ( AGI )。
前卡内基梅隆大学教授 Deepak Pathak(左)和 Abhinav Gupta(右)创立了 Skild AI,他们也曾是 Meta 的 AI 研究人员。
团队成员来自 Meta、特斯拉、Nvidia、亚马逊、谷歌以及卡内基梅隆大学、斯坦福大学、加州大学伯克利分校和 UIUC 等名校。
Lightspeed 合伙人 Raviraj Jain 也于 2023 年 7 月领导了该公司的种子轮融资。去年 4 月,他第一次看到 Skild AI 模型接受压力测试,至今印象深刻。
接入基础模型的机器人能在全新、未经专门设计的环境中执行任务——这可不是为了演示而特别准备的,是真实能力的展现。
看到机器人能爬楼梯时,他非常惊讶。爬楼梯是一个复杂的平衡问题,通常需要针对特定环境编程和训练,但 Skild AI 的模型能让机器人迅速学习和适应新环境,完成任务。
更让他印象深刻的是,机器人展现出一种「涌现能力」,虽然很简单(如捡起从手中滑落的东西或者旋转某个物体),但没人特意教过它们。我们曾在大型语言模型身上也观察到了类似现象。
模型泛化能力和涌现能力,离不开所谓「规模空前」的数据集:一个由文本、图像和视频组成的庞大数据集。
官方说法,比竞争对手使用的数据库大 1000 倍。(不知道对手是否包括特斯拉?:))
他们的基础模型在比其竞争对手大 1000 倍的数据集上进行训练,可以接入各种机器人,帮助他们获得如爬坡、识别和捡起物品等基础能力。「规模空前」归功于他们结合了多种数据收集技术,既有一些常规操作,也有两位创始人多年研究工作中开发的「独门秘方」。
他们会让人类远程操作机器人,然后收集这些操作数据。另一个办法是让机器人执行随机任务,试错学习,并记录这些丰富的数据信息。他们还利用大量公共视频训练模型。这些方法的结合有助于 AI 系统获得更强的适应性和理解力。
至于「独门秘方」,一个是 Deepak Pathak 读博时开发的一种向机器人灌输「人工好奇心」的方法。当机器人对自己行为的结果感到不确定时,它就会变得更「好奇」,愿意探索更多场景,带回更多数据,增加学习的广度和深度。Pathak 还设计了一种方法,可以将人类给 GPT 等大型语言模型下的命令(如打开一罐牛奶),转化为实际动作。
除了这些与物理世界交互和操作的真实数据,他们也结合了从模拟环境中收集的数据。虽然模拟数据不能完全替代真实数据,但它可以提供大量的补充学习材料,特别是在一些难以在现实中频繁重复的场景中。
然而,这种综合的手段也面临挑战,比如如何有效地整合来自不同源的数据。2022 年,两位创始人终于找到办法,将从不同源数据中学习(如从视频、基于好奇心、真实世界学习)整合到一个连贯系统中,大大提高了模型的学习效率和适应能力。
显然,Skild AI 也面临着来自一系列机器人公司的激烈竞争。
特斯拉擎天柱正在快速进化,马斯克透露年底会迎来有意思的更新。行业巨头 OpenAI 最近恢复了其机器人团队,为机器人公司提供基础模型。此外,还有由亿万富翁 CEO Brett Adcock 掌舵的人形机器人公司 Figure AI 和 OpenAI 衍生公司Covariant,该公司正在为机器人构建 ChatGPT,并已筹集了超过 2 亿美元。Skild AI 也设想了一个类似 OpenAI 的未来:
通过微调,就可以在 Skild 基础模型上构建不同的用例和产品。
这正是他们颠覆机器人行业的方式。最终,他们希望抵达机器人 AGI,人们可以在物理世界中,与之互动。