跳转至

RT-1:把"机器人控制"做成能规模化的 Transformer

📅 2022-12 · 🏛 Google · 🏷 机器人Transformer·VLA前身 📌 一句话省流:用一个 Transformer 把"摄像头画面 + 一句话指令"直接变成机器人动作,靠 13 万条真机演示大规模学,证明了"数据越多越杂、机器人越通用"——这是 RT-2/OpenVLA/π0 这条线的开端。 ≈ 打比方:机器人界的"第一个吃螃蟹"——把 NLP 那套"大数据+Transformer"搬到机械臂上。 🔬 详读:详读-RT-1 🎬 项目页 · 代码

🧰 对我们(可用性速判)

  • 对我们的用处理解 VLA 怎么来的必读根。两条对采集策略有指导的硬结论:多样性 > 数量能吸收异构(仿真/他机)数据(见 概念-机器人数据与标注)。落地仍用更新的开源底座 卡片-OpenVLA/卡片-π0
  • 真实性:✅ 全文精读 + RSS 2023 + Google + 开源。
  • 训练/微调资源:35M 小模型、3Hz;但要 13 万真机数据(我们采不起这量级)。
  • 能借多少(开源):✅ 代码开源;权重生态后来被 RT-X/OpenVLA 取代。
  • 可用性结论思路借鉴(不直接用,落地看后辈开源底座)。
  • 🔬 详读(全文):详读-RT-1

亮点(全文精读后定位)

  • 架构:EfficientNet-B3 + FiLM(语言条件) → 81 token,TokenLearner 压到 8 token/帧(提速 2.4×),decoder-only Transformer,动作 11 维×256 bin。
  • 多样性 > 数量:去 25% 任务多样性 ≈ 去 49% 数据的伤害——本文最重要洞见。
  • 吸收异构数据:加仿真→仿真物体 23%→87%;加 Kuka→拣箱 22%→39%(跨形态)。

关键数字(每条带来源 [n])

  • [1] 已见任务 97%(vs BC-Z 72)、未见 76%(vs Gato 52)、抗干扰 83%、抗背景 59%、长程 67%(vs 13%)。✅📄
  • [2] 数据:13 万 episode / 17 月 / 13 机器人 / 744 指令 / 700+ 任务。✅📄
  • [3] 35M 参数、3Hz;TokenLearner 提速 2.4×。✅📄

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2212.06817,RSS 2023(✅ 全文精读)。
  • 代码:✅ 开源(google-research/robotics_transformer)。
  • 证据等级:A → 权重:中(偏上)(奠基但已被后辈取代)。

🧪 复现条件与成本(暂不亲做,只估)

  • 门槛在数据:13 万真机演示非小团队可采;模型本身小、易跑。
  • 侧证判价值:奠基工作 ✅ / 开源 ✅ / 多样性洞见可直接指导我们采数 ✅。

💡 我的批注 / 判断(🤖,待人复核)

  • 读它是补"VLA 范式的起点":图像+语言→离散动作 token、多任务大数据。RT-1 的语言只是 USE 嵌入条件化,还没接网络知识(那是 RT-2 的事)。
  • "多样性>数量""能吸收异构数据"两条,是我们后续规划触觉数据采集时最该记住的。

来源编号

  • [1][2][3] arXiv 2212.06817 全文(✅,见 详读-RT-1)。