为机器人安上“最强大脑”!谷歌VLA新模型泛化能力提升3倍 能“听懂人话”
永华财经
2024-03-21 15:51:56
0

K图 GOOGL_0

K图 GOOG_0

  ①之前机器人经常无法操纵自己从未见过的东西,也难以实现“从‘灭绝的动物’到‘塑料恐龙’的逻辑飞跃”;

  ②作为一款新型视觉-语言-动作(VLA)模型,RT-2可以从网络、机器人数据中学习,并将这些知识转化为机器人控制的通用指令;

  ③RT-2具备三大能力:符号理解、推理和人类识别。

  一个单臂机器人“站”在桌前,桌上放着三个塑料动物玩具:狮子、鲸鱼与恐龙。收到“捡起灭绝的动物”指令后,这个机器人“思考”了一会儿,然后甚至机械臂,打开爪子,抓起了恐龙。

  这是谷歌最新一款机器人模型Robotic Transformer 2(机器人变形金刚2,RT-2)。

  上文这个“抓起恐龙”的动作对于人类而言轻而易举,对于机器人而言却堪称一个重要飞跃——之前机器人经常无法操纵自己从未见过的东西,也难以实现从“灭绝的动物”到“塑料恐龙”的逻辑飞跃。

  作为一款新型视觉-语言-动作(vision-language-action,VLA)模型,RT-2可以从网络、机器人数据中学习,并将这些知识转化为机器人控制的通用指令。

  相较于其他机器人研究,RT-2的核心优势在于,其不仅能直接接收“人话”指令,听懂“人话”、理解“人话”,还能做出相应推理,并转为机器人能理解的分阶段指令,从而做出动作完成任务。

  RT-2完成的每一项任务,都要求其理解视觉语义概念、并通过控制机器人实现操作这些概念。

  例如接到“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这种指令时,机器人需要对相应物体/场景执行任务,而这些物体与场景它从未在机器人数据中见过,需要从网络数据中转化得到相应知识。

image

  总体而言,RT-2具备三大能力:符号理解(Symbol understanding)、推理(Reasoning)和人类识别(Human recognition)。

  (1)符号理解是指RT-2可以从视觉语言预训练中转移了语义知识,而这些语义知识在机器人数据中并不存在。这类指令示例包括“将苹果移到3号位置”或“将可乐罐推到心形上”。

image

图|符号理解指令示例

  (2)推理则是将VLM的各种推理能力用于任务控制,包括视觉推理(“将苹果移到相同颜色的杯子里”)、数学推理(“将X移到2加1之和的附近”)、多语言理解(“mueve la manzana al vaso verde”,西班牙语)。

image

图|推理指令示例

  (3)人类识别是以人类为中心的理解和识别能力,RT-2可以完成“将可乐罐移到戴眼镜的人身边”这类任务。

image

图|人类识别指令示例

  此外,研究人员还将机器人控制与思维链推理相结合。首先用自然语言描述机器人即将采取的动作的目的,然后是“动作”和动作标记。

  例如在下图中,RT-2接收到的要求是“我想钉个钉子,场景里什么东西可能能用上?”,RT-2转化得出了“石头。动作:1 129 138 122 132 132 106 127”的指令,并拿起了石头。

image

  RT-2还能更好地适用于不同的、机器此前没见过的场景。比起在大型数据集上预训练的RT-1、Visual Cortex(VC-1)等模型,RT-2泛化能力大幅提高,较前者提高了3倍有余。

  加利福尼亚大学伯克利分校的机器人学教授Ken Goldberg表示,机器人的灵巧性仍达不到人类水平,在一些基本任务上也会失败,但谷歌利用人工智能语言模型,赋予机器人推理和随机应变的新技能,是一个很有希望的突破。

相关内容

中证协发布《证券经纪业务管...
北京商报讯(记者 刘宇阳 郝彦)6月9日,中证协发文表示,为贯彻落...
2024-04-25 15:37:35
美国9月通胀水平仍顽固 市...
  美国劳工部周四发布的数据显示,经季节性调整后,美国9月消费者价...
2024-04-25 15:37:29
热门中概股多数上涨 高途“...
  美股三大指数集体收涨,道指涨0.43%续创收盘新高,纳指涨0....
2024-04-25 15:37:25
四部门:加大“网红”玩具、...
  证券时报网讯,据教育部网站,近日,教育部、市场监管总局、工信部...
2024-04-25 15:37:23
一线城市楼市优化政策持续加...
  房地产政策环境宽松的态势持续到了年底。  近期,各地出台楼市新...
2024-03-21 15:52:33
主力杀入超8亿元 这只光刻...
  11月7日早盘,上证指数、沪深300指数、创业板指均出现下跌,...
2024-03-21 15:52:23

热门资讯

看2024丨京辉氢能董事长孙国...   2023年是三年新冠疫情防控转段后经济恢复发展的一年,我国经济回升向好,高质量发展扎实推进。  ...
财政部:2024年积极的财政政...   证券时报网讯,据财政部消息,12月21日至22日,全国财政工作会议在北京召开。会议强调,2024...
热门中概股多数上涨 高途“躺赢...   美股三大指数集体收涨,道指涨0.43%续创收盘新高,纳指涨0.19%,标普500指数涨0.27%...
为机器人安上“最强大脑”!谷歌...   ①之前机器人经常无法操纵自己从未见过的东西,也难以实现“从‘灭绝的动物’到‘塑料恐龙’的逻辑飞跃...