type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-RT-1 arxiv: "2212.06817" 来源: 全文精读(ar5iv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30
详读 · RT-1:把"机器人控制"做成可规模化的 Transformer(Google,RSS 2023)¶
一、问题与核心主张¶
- 问题:机器人没有 CV/NLP 那种"大模型预训练→下游泛化"的能力;真机数据贵且任务专用。
- 主张:在大规模多样真机演示上训一个高容量多任务 Transformer 主干,得到对新任务/物体/环境的零样本泛化。
二、方法 / 架构¶
- 图像 token 化:EfficientNet-B3(ImageNet 预训练) 处理 6 帧(300²)→ 9×9×512 → 81 token;FiLM 用语言(Universal Sentence Encoder)条件化图像编码器(恒等初始化保留预训练)。
- TokenLearner:把 81 token 压到 8 token/帧(注意力压缩)→ 提速 2.4×。
- Transformer:decoder-only,8 层自注意力,处理 48 token,输出动作 token。
- 动作离散化:11 维(7 臂 + 3 底盘 + 1 模式)各分 256 bin。
- 3Hz 控制(TokenLearner 2.4× + 跨窗 token 复用 1.7×);总参 35M。
三、数据¶
- 13 万 episode / 17 个月 / 13 台机器人(Everyday Robots);744 条指令 / 8+ 技能 / 700+ 任务;3 个环境。
四、关键结果¶
| 指标 | RT-1 | 最佳基线 |
|---|---|---|
| 已见任务 | 97% | 72%(BC-Z) |
| 未见任务 | 76% | 52%(Gato) |
| 抗干扰物 | 83% | 47% |
| 抗背景变化 | 59% | 41% |
| 长程(SayCan Kitchen2) | 67% | 13% |
| - 吸收异构数据:加仿真→仿真物体 23%→87%(真实物体仍 90%);加 Kuka 多机器人→拣箱 22%→39%(跨形态迁移)。 | ||
| - 多样性 > 数量:去掉 25% 任务多样性(留 97% 数据) ≈ 去掉 49% 数据的伤害。 |
五、消融¶
- 数据量 37%→已见 55%;数据多样性 75% 任务→86%(比减量更陡)。
- FiLM+EfficientNet 优于 patchify;TokenLearner 提速 2.4×。
六、局限(作者自陈)¶
- 模仿学习不能超过演示者;只会已见概念重组、不会全新动作;局限厨房操作;背景泛化 59% 仍难。
七、开源 / 出处¶
- RSS 2023;代码 github.com/google-research/robotics_transformer;项目 robotics-transformer1.github.io。
八、对我们(精读后判断,🤖)¶
- VLA 主线的开端之一:它确立了"图像+语言→离散动作 token、多任务大数据"的范式,后面 RT-2/卡片-OpenVLA/卡片-π0 都在此基础上走。读它是为补"为什么 VLA 长这样"的根。
- 最该记的洞见:多样性比数量更重要 + 能吸收异构(仿真/他机)数据——这对我们规划数据采集策略有直接指导(参见 概念-机器人数据与标注)。
- 注意它还不是 VLM 底座(那是 RT-2 才引入网络知识),RT-1 的语言只是 USE 嵌入条件化。