RT-2:把"动作当文字",直接微调网络级大模型¶
📅 2023-07 · 🏛 Google DeepMind · 🏷 VLA·开山之作 📌 一句话省流:把机器人动作写成一串"数字文字",直接拿在互联网图文上训过的大模型(VLM)一起微调——于是机器人"白嫖"了网络常识,能对没见过的物体/指令举一反三,还会简单推理(挑石头当锤子)。 ≈ 打比方:让"读过整个互联网"的大模型亲自来开机械臂,而不是另配一个没文化的控制器。 🔬 详读:详读-RT-2 🎬 项目页
🧰 对我们(可用性速判)¶
- 对我们的用处:VLA 范式的奠基,确立"动作即文本 token + co-fine-tune VLM"主路。对触觉×VLA 的直接启发:既然动作能塞进 VLM 词表,触觉也能作为额外模态/ token 塞进来(对照 卡片-VLA-Touch、卡片-Tactile-VLA)。落地用开源平替 卡片-OpenVLA。
- 真实性:✅ 全文精读 + CoRL 2023 + DeepMind + 6000+ 真机试验。
- 训练/微调资源:55B/12B,需 TPU 云,1–3Hz——非我们可碰。
- 能借多少(开源):❌ 闭源(权重/代码均未放),只能借思路。
- 可用性结论:仅思路借鉴 / 上界示范(闭源、贵)。
- 🔬 详读(全文):详读-RT-2
亮点(全文精读后定位)¶
- co-fine-tune 配方:机器人数据混网络图文数据一起训,动作离散成 256 bin 写成文本 token,推理时约束输出词表。
- 涌现能力:符号理解 82%(vs RT-1 16%)、推理 46%(vs 16)、人物识别 53%(vs 20)——涌现整体 ~3×。
- 思维链:prompt 加中间计划即可做多步语义推理。
- 消融:规模越大越好(5B 44%→55B 63%);从零训仅 9%、co-FT 最优。
关键数字(每条带来源 [n])¶
- [1] 未见泛化 RT-2-PaLI-X-55B ~62% vs RT-1 32%(≈2×)。✅📄
- [2] 涌现:符号 82%/推理 46%/人物 53%(vs RT-1 16/16/20),整体 ~3×。✅📄
- [3] 消融:5B 44% → 55B 63%;从零 9% / 仅机器人微调 42% / co-FT 44%。✅📄
🔎 证据与可信度(见 _卡片规范)¶
- 论文:arXiv 2307.15818,CoRL 2023(✅ 全文精读)。
- 代码/权重:❌ 闭源。
- 证据等级:A → 权重:中(偏上)(奠基但闭源不可用)。
🧪 复现条件与成本(暂不亲做,只估)¶
- 实质不可复现:55B + TPU 云 + 无权重。价值在"借范式"。
💡 我的批注 / 判断(🤖,待人复核)¶
- 触觉×VLA 卡片里反复出现的"主流 VLA 仍是 V+L"就是指 RT-2 这类——我们做的是给它们补触觉(见 综述-触觉与VLA路线总览 §0)。
- 清醒点:RT-2 只涨语义、不长新动作(物理能力受机器人数据所限),且闭源贵——它给的是"上界与思路",不是工具。
来源编号¶
- [1][2][3] arXiv 2307.15818 全文(✅,见 详读-RT-2)。