3月14日,美国明星机器人新创公司Figure发表了第一个OpenAI大模型加持的机器人demo。 虽然只用到了一个神经网络,但却可以听从人类的命令,递给人类苹果、将黑色塑料袋收拾进框子里、将杯子和盘子归置放在沥水架上。
Figure 指出,它的 Figure 01 机器人接受了 OpenAI 模型的训练,使其能够同时执行家务。 更重要的是,它可以在执行任务时与人类互动,这使得它们比以前的机器人更为实用。
执行长 Brett Adcock 在 X 平台上发文称:「Figure 的机载摄影机会输入由 OpenAI 训练的大型视觉语言模型 。」
该公司尚未具体说明 VLM 是 OpenAI 最新大型语言模式 GPT-4 的一个版本,还是完全不同的版本。
Adcock 发布了示范视频,并表示,「正如你从视频中看到的,机器人的速度有了显著的提高,我们开始接近人类的速度。」 他表示,公司的的目标是训练一个世界模型,来操作十亿个级别的人形机器人。
这家公司不久前刚宣布获得 OpenAI 等公司的投资,才十几天就直接用上了 OpenAI 的多模态大模型。
Figure 机器人操作资深 AI 工程师 Corey Lynch 介绍了此次 Figure 01 的技术原理。 他表示,Figure 01 现在可以做到以下这些:描述其视觉经验、规划未来的行动、反思自己的记忆、口头解释推理过程。
他接着解释称,影片中机器人的所有行为都是学到的(再次强调不是远程操作),并以正常速度 (1.0x) 运作。
此外,该模型负责决定在机器人上运行哪些学习到的闭环行为以完成给定的命令,从而将特定的神经网络权重加载到GPU上并执行策略。
关于学习到的低端双手操作,所有行为均由神经网络视觉运动 transformer 策略驱动,将像素直接对应到动作。 这些网络以 10hz 的频率接收机载图像,并以 200hz 的频率产生 24-DOF 动作 (手腕姿势和手指关节角度)。
最后他表示,即使在几年前,自己还认为人形机器人规划和执行自身完全学得行为的同时与人类进行完整的对话是几十年后才能看到的事情。 显然,现在已经发生太多变化了。
根据此前报道,Figure AI已获得来自微软、英伟达、OpenAI以及亚马逊创办人贝佐斯等投资人约6.75亿美元的新一轮融资。 这是该公司继去年上半年获得首轮7000万美元外部融资之后宣布的最新融资动态,这也使得该公司的估值达到26亿美元左右。
Figure AI 表示,将利用这笔新的融资资金加速其人形机器人的开发,以投入商业用途。