跳转至

RT-2:把"动作当文字",直接微调网络级大模型

📅 2023-07 · 🏛 Google DeepMind · 🏷 VLA·开山之作 📌 一句话省流:把机器人动作写成一串"数字文字",直接拿在互联网图文上训过的大模型(VLM)一起微调——于是机器人"白嫖"了网络常识,能对没见过的物体/指令举一反三,还会简单推理(挑石头当锤子)。 ≈ 打比方:让"读过整个互联网"的大模型亲自来开机械臂,而不是另配一个没文化的控制器。 🔬 详读:详读-RT-2 🎬 项目页

🧰 对我们(可用性速判)

  • 对我们的用处VLA 范式的奠基,确立"动作即文本 token + co-fine-tune VLM"主路。对触觉×VLA 的直接启发:既然动作能塞进 VLM 词表,触觉也能作为额外模态/ token 塞进来(对照 卡片-VLA-Touch卡片-Tactile-VLA)。落地用开源平替 卡片-OpenVLA
  • 真实性:✅ 全文精读 + CoRL 2023 + DeepMind + 6000+ 真机试验。
  • 训练/微调资源:55B/12B,需 TPU 云,1–3Hz——非我们可碰
  • 能借多少(开源):❌ 闭源(权重/代码均未放),只能借思路。
  • 可用性结论仅思路借鉴 / 上界示范(闭源、贵)。
  • 🔬 详读(全文):详读-RT-2

亮点(全文精读后定位)

  • co-fine-tune 配方:机器人数据混网络图文数据一起训,动作离散成 256 bin 写成文本 token,推理时约束输出词表。
  • 涌现能力:符号理解 82%(vs RT-1 16%)、推理 46%(vs 16)、人物识别 53%(vs 20)——涌现整体 ~3×。
  • 思维链:prompt 加中间计划即可做多步语义推理。
  • 消融:规模越大越好(5B 44%→55B 63%);从零训仅 9%、co-FT 最优。

关键数字(每条带来源 [n])

  • [1] 未见泛化 RT-2-PaLI-X-55B ~62% vs RT-1 32%(≈2×)。✅📄
  • [2] 涌现:符号 82%/推理 46%/人物 53%(vs RT-1 16/16/20),整体 ~3×。✅📄
  • [3] 消融:5B 44% → 55B 63%;从零 9% / 仅机器人微调 42% / co-FT 44%。✅📄

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2307.15818,CoRL 2023(✅ 全文精读)。
  • 代码/权重:❌ 闭源。
  • 证据等级:A → 权重:中(偏上)(奠基但闭源不可用)。

🧪 复现条件与成本(暂不亲做,只估)

  • 实质不可复现:55B + TPU 云 + 无权重。价值在"借范式"。

💡 我的批注 / 判断(🤖,待人复核)

  • 触觉×VLA 卡片里反复出现的"主流 VLA 仍是 V+L"就是指 RT-2 这类——我们做的是给它们补触觉(见 综述-触觉与VLA路线总览 §0)。
  • 清醒点:RT-2 只涨语义、不长新动作(物理能力受机器人数据所限),且闭源贵——它给的是"上界与思路",不是工具。

来源编号

  • [1][2][3] arXiv 2307.15818 全文(✅,见 详读-RT-2)。