跳转至

机器人知识库

RT-2 —— 把"网络知识"迁进机器人控制的 VLA 开山之作

RT-2：把"动作当文字"，直接微调网络级大模型¶

📅 2023-07 · 🏛 Google DeepMind · 🏷 VLA·开山之作 📌 一句话省流：把机器人动作写成一串"数字文字"，直接拿在互联网图文上训过的大模型(VLM)一起微调——于是机器人"白嫖"了网络常识，能对没见过的物体/指令举一反三，还会简单推理(挑石头当锤子)。 ≈ 打比方：让"读过整个互联网"的大模型亲自来开机械臂，而不是另配一个没文化的控制器。 🔬 详读：详读-RT-2 🎬 项目页

🧰 对我们（可用性速判）¶

对我们的用处：VLA 范式的奠基，确立"动作即文本 token + co-fine-tune VLM"主路。对触觉×VLA 的直接启发：既然动作能塞进 VLM 词表，触觉也能作为额外模态/ token 塞进来(对照卡片-VLA-Touch、卡片-Tactile-VLA)。落地用开源平替卡片-OpenVLA。
真实性：✅ 全文精读 + CoRL 2023 + DeepMind + 6000+ 真机试验。
训练/微调资源：55B/12B，需 TPU 云，1–3Hz——非我们可碰。
能借多少(开源)：❌ 闭源(权重/代码均未放)，只能借思路。
可用性结论：仅思路借鉴 / 上界示范（闭源、贵）。
🔬 详读（全文）：详读-RT-2

亮点（全文精读后定位）¶

co-fine-tune 配方：机器人数据混网络图文数据一起训，动作离散成 256 bin 写成文本 token，推理时约束输出词表。
涌现能力：符号理解 82%(vs RT-1 16%)、推理 46%(vs 16)、人物识别 53%(vs 20)——涌现整体 ~3×。
思维链：prompt 加中间计划即可做多步语义推理。
消融：规模越大越好(5B 44%→55B 63%)；从零训仅 9%、co-FT 最优。

关键数字（每条带来源 [n]）¶

[1] 未见泛化 RT-2-PaLI-X-55B ~62% vs RT-1 32%（≈2×）。✅📄
[2] 涌现：符号 82%/推理 46%/人物 53%（vs RT-1 16/16/20），整体 ~3×。✅📄
[3] 消融：5B 44% → 55B 63%；从零 9% / 仅机器人微调 42% / co-FT 44%。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2307.15818，CoRL 2023（✅ 全文精读）。
代码/权重：❌ 闭源。
证据等级：A → 权重：中(偏上)（奠基但闭源不可用）。

🧪 复现条件与成本（暂不亲做，只估）¶

实质不可复现：55B + TPU 云 + 无权重。价值在"借范式"。

💡 我的批注 / 判断（🤖，待人复核）¶

触觉×VLA 卡片里反复出现的"主流 VLA 仍是 V+L"就是指 RT-2 这类——我们做的是给它们补触觉(见综述-触觉与VLA路线总览 §0)。
清醒点：RT-2 只涨语义、不长新动作(物理能力受机器人数据所限)，且闭源贵——它给的是"上界与思路"，不是工具。

来源编号¶

[1][2][3] arXiv 2307.15818 全文（✅，见详读-RT-2）。