跳转至

机器人知识库

详读 RT 2

type: 详读（中文全文摘要） domain: 大脑·模型对应卡片: 卡片-RT-2 arxiv: "2307.15818" 来源: 全文精读(ar5iv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · RT-2：把"动作当文字"，直接微调网络级 VLM（Google DeepMind，CoRL 2023）¶

一、问题与核心主张¶

问题：机器人缺 VLM 的语义推理与泛化；以往要么 VLM 只做高层规划、要么底层控制器吃不到 VLM 预训练红利。
主张：把机器人动作编码成文字 token，直接在"机器人轨迹 + 网络视觉-语言任务"上联合微调(co-fine-tune)预训练 VLM——一个模型既闭环控制、又继承互联网级语义。

二、方法¶

两个 VLM 底座：RT-2-PaLI-X(5B/55B，ViT-22B + 32B 编解码)；RT-2-PaLM-E(12B，decoder-only + ViT-4B)。
动作 token 化：6-DoF 位移+夹爪+终止离散成 256 bin，写成空格分隔文本(如 "1 128 91 241 5 101 127")。
co-fine-tune 配方：机器人数据混原 VLM 网络数据(PaLI-X ~50%/PaLM-E ~66%)，下一 token 预测(BC 损失)；推理时约束输出词表为合法动作 token。
部署多 TPU 云；55B 跑 1–3Hz、5B ~5Hz。

三、关键结果¶

未见泛化：RT-2-PaLI-X-55B ~62% vs RT-1 32%（≈2×）；PaLM-E-12B 也 62%。
涌现能力(各 5 trial)：符号理解 82% vs RT-1 16%；推理(数学/标志/营养/颜色) 46% vs 16%；人物识别 53% vs 20% → 涌现整体 3×。
思维链：prompt 加中间自然语言计划 → 能"挑石头当锤子""选能量饮料解乏"等复杂推理。
Language-Table 仿真：RT-2-PaLI-3B 90%±10 vs LAVA 77%。

四、消融¶

规模：5B co-FT 44% → 55B 63%(未见均值)。
训练策略(5B)：从零 9% / 仅机器人微调 42% / co-fine-tune 44%——co-FT 与大模型都稳定提升，从零严重欠拟合。

五、局限（作者自陈）¶

不产生新动作：物理能力仍受机器人训练分布所限，红利在"语义部署"非运动技能；
推理成本高(需云)；可微调的开源 VLM 少；
失败模式：按部位抓、新动作(擦/用工具)、灵巧操作、多步推理。

六、开源 / 出处¶

CoRL 2023；未开源(Google 内部)。6000+ 真机试验。

七、对我们（精读后判断，🤖）¶

VLA 范式的奠基作：确立"动作即文字 + co-fine-tune VLM"这条主路，卡片-OpenVLA、卡片-π0 等都沿此走(OpenVLA 是它的开源平替)。
对触觉×VLA 的启发：RT-2 证明"把动作塞进 VLM 词表"可行 → 那"把触觉作为额外 token/模态塞进来"也顺理成章(对照卡片-VLA-Touch、卡片-Tactile-VLA)。
清醒点：它只涨语义、不长新动作，且闭源、贵——价值在"思路与上界示范"，拿不到东西。