机器人大模型新公司数据规模比同行大1000倍贝索斯、孙正义等押注-IT商业科技网

　　最近，Sequoia 合伙人 Stephanie Zhan 在投资了一家新机器人初创后说道。

　　无论是在物流、车厂试点的人形机器人，还是四足机器狗，都要有脑子。过去，脑子要定制，「专款专用」，现在，不必了。

　　最近，位于匹兹堡的机器人初创 Skild AI 声称，已经开发出一种通用的智能系统。它就像一个通用的智能模块，可以接入不同机器人，让他们立刻获得一些基本能力，如爬坡、跨过障碍、识别和捡起物品。

　　7 月 9 日，Skild AI 正式宣布筹集到 3 亿美元 A 轮融资，公司估值达 15 亿美元。投资人阵容也非常强大，涵盖科技界、顶尖风投甚至学术机构。

　　贝索斯和孙正义的软银都出现在领投名单中，他们均以长期投资视野著称。Lightspeed(领投)、Coatue(领投)、Sequoia、Menlo Ventures、General Catalyst 等都是全球知名的顶级风投，也出现在投资名单中。卡内基梅隆大学的参投也表明，Skild AI 技术得到学术界认可。

　　Skild AI 由两位前卡内基梅隆大学教授 Abhinav Gupta 和 Deepak Pathak 于 2023 年 5 月创立，长期目标是开发扎根于物理世界的通用人工智能 ( AGI )。

前卡内基梅隆大学教授 Deepak Pathak(左)和 Abhinav Gupta(右)创立了 Skild AI，他们也曾是 Meta 的 AI 研究人员。

　　团队成员来自 Meta、特斯拉、Nvidia、亚马逊、谷歌以及卡内基梅隆大学、斯坦福大学、加州大学伯克利分校和 UIUC 等名校。

　　Lightspeed 合伙人 Raviraj Jain 也于 2023 年 7 月领导了该公司的种子轮融资。去年 4 月，他第一次看到 Skild AI 模型接受压力测试，至今印象深刻。

　　接入基础模型的机器人能在全新、未经专门设计的环境中执行任务——这可不是为了演示而特别准备的，是真实能力的展现。

　　看到机器人能爬楼梯时，他非常惊讶。爬楼梯是一个复杂的平衡问题，通常需要针对特定环境编程和训练，但 Skild AI 的模型能让机器人迅速学习和适应新环境，完成任务。

　　更让他印象深刻的是，机器人展现出一种「涌现能力」，虽然很简单(如捡起从手中滑落的东西或者旋转某个物体)，但没人特意教过它们。我们曾在大型语言模型身上也观察到了类似现象。

　　模型泛化能力和涌现能力，离不开所谓「规模空前」的数据集：一个由文本、图像和视频组成的庞大数据集。

　　官方说法，比竞争对手使用的数据库大 1000 倍。(不知道对手是否包括特斯拉?：))

　　他们的基础模型在比其竞争对手大 1000 倍的数据集上进行训练，可以接入各种机器人，帮助他们获得如爬坡、识别和捡起物品等基础能力。「规模空前」归功于他们结合了多种数据收集技术，既有一些常规操作，也有两位创始人多年研究工作中开发的「独门秘方」。

　　他们会让人类远程操作机器人，然后收集这些操作数据。另一个办法是让机器人执行随机任务，试错学习，并记录这些丰富的数据信息。他们还利用大量公共视频训练模型。这些方法的结合有助于 AI 系统获得更强的适应性和理解力。

　　至于「独门秘方」，一个是 Deepak Pathak 读博时开发的一种向机器人灌输「人工好奇心」的方法。当机器人对自己行为的结果感到不确定时，它就会变得更「好奇」，愿意探索更多场景，带回更多数据，增加学习的广度和深度。Pathak 还设计了一种方法，可以将人类给 GPT 等大型语言模型下的命令(如打开一罐牛奶)，转化为实际动作。

　　除了这些与物理世界交互和操作的真实数据，他们也结合了从模拟环境中收集的数据。虽然模拟数据不能完全替代真实数据,但它可以提供大量的补充学习材料，特别是在一些难以在现实中频繁重复的场景中。

　　然而，这种综合的手段也面临挑战，比如如何有效地整合来自不同源的数据。2022 年，两位创始人终于找到办法，将从不同源数据中学习(如从视频、基于好奇心、真实世界学习)整合到一个连贯系统中，大大提高了模型的学习效率和适应能力。

　　显然，Skild AI 也面临着来自一系列机器人公司的激烈竞争。

　　特斯拉擎天柱正在快速进化，马斯克透露年底会迎来有意思的更新。行业巨头 OpenAI 最近恢复了其机器人团队，为机器人公司提供基础模型。此外，还有由亿万富翁 CEO Brett Adcock 掌舵的人形机器人公司 Figure AI 和 OpenAI 衍生公司Covariant，该公司正在为机器人构建 ChatGPT，并已筹集了超过 2 亿美元。Skild AI 也设想了一个类似 OpenAI 的未来：

　　通过微调，就可以在 Skild 基础模型上构建不同的用例和产品。

　　这正是他们颠覆机器人行业的方式。最终，他们希望抵达机器人 AGI，人们可以在物理世界中，与之互动。