跳转至

机器人知识库

RT-1 —— 机器人 Transformer 的奠基（VLA 的前身）

RT-1：把"机器人控制"做成能规模化的 Transformer¶

📅 2022-12 · 🏛 Google · 🏷 机器人Transformer·VLA前身 📌 一句话省流：用一个 Transformer 把"摄像头画面 + 一句话指令"直接变成机器人动作，靠 13 万条真机演示大规模学，证明了"数据越多越杂、机器人越通用"——这是 RT-2/OpenVLA/π0 这条线的开端。 ≈ 打比方：机器人界的"第一个吃螃蟹"——把 NLP 那套"大数据+Transformer"搬到机械臂上。 🔬 详读：详读-RT-1 🎬 项目页 · 代码

🧰 对我们（可用性速判）¶

对我们的用处：理解 VLA 怎么来的必读根。两条对采集策略有指导的硬结论：多样性 > 数量、能吸收异构(仿真/他机)数据(见概念-机器人数据与标注)。落地仍用更新的开源底座卡片-OpenVLA/卡片-π0。
真实性：✅ 全文精读 + RSS 2023 + Google + 开源。
训练/微调资源：35M 小模型、3Hz；但要 13 万真机数据(我们采不起这量级)。
能借多少(开源)：✅ 代码开源；权重生态后来被 RT-X/OpenVLA 取代。
可用性结论：思路借鉴（不直接用，落地看后辈开源底座）。
🔬 详读（全文）：详读-RT-1

亮点（全文精读后定位）¶

架构：EfficientNet-B3 + FiLM(语言条件) → 81 token，TokenLearner 压到 8 token/帧(提速 2.4×)，decoder-only Transformer，动作 11 维×256 bin。
多样性 > 数量：去 25% 任务多样性 ≈ 去 49% 数据的伤害——本文最重要洞见。
吸收异构数据：加仿真→仿真物体 23%→87%；加 Kuka→拣箱 22%→39%(跨形态)。

关键数字（每条带来源 [n]）¶

[1] 已见任务 97%(vs BC-Z 72)、未见 76%(vs Gato 52)、抗干扰 83%、抗背景 59%、长程 67%(vs 13%)。✅📄
[2] 数据：13 万 episode / 17 月 / 13 机器人 / 744 指令 / 700+ 任务。✅📄
[3] 35M 参数、3Hz；TokenLearner 提速 2.4×。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2212.06817，RSS 2023（✅ 全文精读）。
代码：✅ 开源(google-research/robotics_transformer)。
证据等级：A → 权重：中(偏上)（奠基但已被后辈取代）。

🧪 复现条件与成本（暂不亲做，只估）¶

门槛在数据：13 万真机演示非小团队可采；模型本身小、易跑。
侧证判价值：奠基工作 ✅ / 开源 ✅ / 多样性洞见可直接指导我们采数 ✅。

💡 我的批注 / 判断（🤖，待人复核）¶

读它是补"VLA 范式的起点"：图像+语言→离散动作 token、多任务大数据。RT-1 的语言只是 USE 嵌入条件化，还没接网络知识(那是 RT-2 的事)。
"多样性>数量""能吸收异构数据"两条，是我们后续规划触觉数据采集时最该记住的。

来源编号¶

[1][2][3] arXiv 2212.06817 全文（✅，见详读-RT-1）。