跳转至

type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-RT-2 arxiv: "2307.15818" 来源: 全文精读(ar5iv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30


详读 · RT-2:把"动作当文字",直接微调网络级 VLM(Google DeepMind,CoRL 2023)

一、问题与核心主张

  • 问题:机器人缺 VLM 的语义推理与泛化;以往要么 VLM 只做高层规划、要么底层控制器吃不到 VLM 预训练红利。
  • 主张把机器人动作编码成文字 token,直接在"机器人轨迹 + 网络视觉-语言任务"上联合微调(co-fine-tune)预训练 VLM——一个模型既闭环控制、又继承互联网级语义。

二、方法

  • 两个 VLM 底座:RT-2-PaLI-X(5B/55B,ViT-22B + 32B 编解码);RT-2-PaLM-E(12B,decoder-only + ViT-4B)。
  • 动作 token 化:6-DoF 位移+夹爪+终止 离散成 256 bin,写成空格分隔文本(如 "1 128 91 241 5 101 127")。
  • co-fine-tune 配方:机器人数据混原 VLM 网络数据(PaLI-X ~50%/PaLM-E ~66%),下一 token 预测(BC 损失);推理时约束输出词表为合法动作 token。
  • 部署多 TPU 云;55B 跑 1–3Hz、5B ~5Hz。

三、关键结果

  • 未见泛化:RT-2-PaLI-X-55B ~62% vs RT-1 32%(≈2×);PaLM-E-12B 也 62%。
  • 涌现能力(各 5 trial):符号理解 82% vs RT-1 16%;推理(数学/标志/营养/颜色) 46% vs 16%;人物识别 53% vs 20% → 涌现整体
  • 思维链:prompt 加中间自然语言计划 → 能"挑石头当锤子""选能量饮料解乏"等复杂推理。
  • Language-Table 仿真:RT-2-PaLI-3B 90%±10 vs LAVA 77%。

四、消融

  • 规模:5B co-FT 44% → 55B 63%(未见均值)。
  • 训练策略(5B):从零 9% / 仅机器人微调 42% / co-fine-tune 44%——co-FT 与大模型都稳定提升,从零严重欠拟合。

五、局限(作者自陈)

  • 不产生新动作:物理能力仍受机器人训练分布所限,红利在"语义部署"非运动技能;
  • 推理成本高(需云);可微调的开源 VLM 少;
  • 失败模式:按部位抓、新动作(擦/用工具)、灵巧操作、多步推理。

六、开源 / 出处

  • CoRL 2023;未开源(Google 内部)。6000+ 真机试验。

七、对我们(精读后判断,🤖)

  • VLA 范式的奠基作:确立"动作即文字 + co-fine-tune VLM"这条主路,卡片-OpenVLA卡片-π0 等都沿此走(OpenVLA 是它的开源平替)。
  • 对触觉×VLA 的启发:RT-2 证明"把动作塞进 VLM 词表"可行 → 那"把触觉作为额外 token/模态塞进来"也顺理成章(对照 卡片-VLA-Touch卡片-Tactile-VLA)。
  • 清醒点:它只涨语义、不长新动作,且闭源、贵——价值在"思路与上界示范",拿不到东西。