跳转至

type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-RT-1 arxiv: "2212.06817" 来源: 全文精读(ar5iv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30


详读 · RT-1:把"机器人控制"做成可规模化的 Transformer(Google,RSS 2023)

一、问题与核心主张

  • 问题:机器人没有 CV/NLP 那种"大模型预训练→下游泛化"的能力;真机数据贵且任务专用。
  • 主张:在大规模多样真机演示上训一个高容量多任务 Transformer 主干,得到对新任务/物体/环境的零样本泛化。

二、方法 / 架构

  • 图像 token 化:EfficientNet-B3(ImageNet 预训练) 处理 6 帧(300²)→ 9×9×512 → 81 token;FiLM 用语言(Universal Sentence Encoder)条件化图像编码器(恒等初始化保留预训练)。
  • TokenLearner:把 81 token 压到 8 token/帧(注意力压缩)→ 提速 2.4×。
  • Transformer:decoder-only,8 层自注意力,处理 48 token,输出动作 token。
  • 动作离散化:11 维(7 臂 + 3 底盘 + 1 模式)各分 256 bin
  • 3Hz 控制(TokenLearner 2.4× + 跨窗 token 复用 1.7×);总参 35M

三、数据

  • 13 万 episode / 17 个月 / 13 台机器人(Everyday Robots);744 条指令 / 8+ 技能 / 700+ 任务;3 个环境。

四、关键结果

指标 RT-1 最佳基线
已见任务 97% 72%(BC-Z)
未见任务 76% 52%(Gato)
抗干扰物 83% 47%
抗背景变化 59% 41%
长程(SayCan Kitchen2) 67% 13%
- 吸收异构数据:加仿真→仿真物体 23%→87%(真实物体仍 90%);加 Kuka 多机器人→拣箱 22%→39%(跨形态迁移)。
- 多样性 > 数量:去掉 25% 任务多样性(留 97% 数据) ≈ 去掉 49% 数据的伤害。

五、消融

  • 数据量 37%→已见 55%;数据多样性 75% 任务→86%(比减量更陡)。
  • FiLM+EfficientNet 优于 patchify;TokenLearner 提速 2.4×。

六、局限(作者自陈)

  • 模仿学习不能超过演示者;只会已见概念重组、不会全新动作;局限厨房操作;背景泛化 59% 仍难。

七、开源 / 出处

  • RSS 2023;代码 github.com/google-research/robotics_transformer;项目 robotics-transformer1.github.io。

八、对我们(精读后判断,🤖)

  • VLA 主线的开端之一:它确立了"图像+语言→离散动作 token、多任务大数据"的范式,后面 RT-2/卡片-OpenVLA/卡片-π0 都在此基础上走。读它是为补"为什么 VLA 长这样"的根。
  • 最该记的洞见:多样性比数量更重要 + 能吸收异构(仿真/他机)数据——这对我们规划数据采集策略有直接指导(参见 概念-机器人数据与标注)。
  • 注意它还不是 VLM 底座(那是 RT-2 才引入网络知识),RT-1 的语言只是 USE 嵌入条件化。