跳转至

RT-2(VLA 开山代表作)

📌 一句话:把在互联网图文上训的 VLM 直接 co-fine-tune 进机器人控制(动作当文本 token 输出),于是机器人"白嫖"了网络语义/常识,出现对新物体/新指令的涌现泛化与初步推理。 🎬 项目页 · 论文 ⚠️ 代表作占位卡:基于摘要/项目页,未精读全文。权重未开源

🧰 对我们(速判)

  • 必懂底座:VLA 这条路的起点;"动作即 token + co-fine-tune VLM"范式从它确立。
  • 真实性:高(DeepMind、CoRL23、影响巨大)→ 证据 A;但闭源(不能直接拿来用)。
  • 能借:思想(VLM 语义→机器人);落地用看开源的 卡片-OpenVLA / 卡片-π0

与我们的关系

  • 触觉×VLA 卡片里反复出现的"主流 VLA 仍是 V+L"就是指 RT-2 这类——我们做的是给它们补触觉(见 综述-触觉与VLA路线总览 §0)。

来源