type: 详读（中文全文摘要） domain: 大脑·模型对应卡片: 卡片-RT-1 arxiv: "2212.06817" 来源: 全文精读(ar5iv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · RT-1：把"机器人控制"做成可规模化的 Transformer（Google，RSS 2023）¶

一、问题与核心主张¶

图像 token 化：EfficientNet-B3(ImageNet 预训练) 处理 6 帧(300²)→ 9×9×512 → 81 token；FiLM 用语言(Universal Sentence Encoder)条件化图像编码器(恒等初始化保留预训练)。
TokenLearner：把 81 token 压到 8 token/帧(注意力压缩)→ 提速 2.4×。
Transformer：decoder-only，8 层自注意力，处理 48 token，输出动作 token。
动作离散化：11 维(7 臂 + 3 底盘 + 1 模式)各分 256 bin。
3Hz 控制(TokenLearner 2.4× + 跨窗 token 复用 1.7×)；总参 35M。

13 万 episode / 17 个月 / 13 台机器人(Everyday Robots)；744 条指令 / 8+ 技能 / 700+ 任务；3 个环境。

指标	RT-1	最佳基线
已见任务	97%	72%(BC-Z)
未见任务	76%	52%(Gato)
抗干扰物	83%	47%
抗背景变化	59%	41%
长程(SayCan Kitchen2)	67%	13%
- 吸收异构数据：加仿真→仿真物体 23%→87%(真实物体仍 90%)；加 Kuka 多机器人→拣箱 22%→39%(跨形态迁移)。
- 多样性 > 数量：去掉 25% 任务多样性(留 97% 数据) ≈ 去掉 49% 数据的伤害。

RSS 2023；代码 github.com/google-research/robotics_transformer；项目 robotics-transformer1.github.io。

VLA 主线的开端之一：它确立了"图像+语言→离散动作 token、多任务大数据"的范式，后面 RT-2/卡片-OpenVLA/卡片-π0 都在此基础上走。读它是为补"为什么 VLA 长这样"的根。
最该记的洞见：多样性比数量更重要 + 能吸收异构(仿真/他机)数据——这对我们规划数据采集策略有直接指导(参见概念-机器人数据与标注)。
注意它还不是 VLM 底座(那是 RT-2 才引入网络知识)，RT-1 的语言只是 USE 嵌入条件化。