跳转至

机器人知识库

RT-2 —— 把"网络知识"迁进机器人控制的 VLA 开山之作

RT-2（VLA 开山代表作）¶

📌 一句话：把在互联网图文上训的 VLM 直接 co-fine-tune 进机器人控制(动作当文本 token 输出)，于是机器人"白嫖"了网络语义/常识，出现对新物体/新指令的涌现泛化与初步推理。 🎬 项目页 · 论文 ⚠️ 代表作占位卡：基于摘要/项目页，未精读全文。权重未开源。

🧰 对我们（速判）¶

必懂底座：VLA 这条路的起点；"动作即 token + co-fine-tune VLM"范式从它确立。
真实性：高（DeepMind、CoRL23、影响巨大）→ 证据 A；但闭源(不能直接拿来用)。
能借：思想(VLM 语义→机器人)；落地用看开源的卡片-OpenVLA / 卡片-π0。

与我们的关系¶

触觉×VLA 卡片里反复出现的"主流 VLA 仍是 V+L"就是指 RT-2 这类——我们做的是给它们补触觉(见综述-触觉与VLA路线总览 §0)。

来源¶

📄 RT-2, arXiv 2307.15818（Google DeepMind, CoRL 2023）· 项目页