跳转至

type: 详读(中文全文摘要) domain: 大脑·学习方法 对应卡片: 卡片-RLT arxiv: "2604.23073" 来源: 全文精读(arXiv txt 正文 v2),🤖Claude 摘译,关键数字📄来自正文 date: 2026-07-04


详读 · RL Token:用 VLA 的紧凑表示引导样本高效在线 RL(Physical Intelligence,2026)

一、问题与核心主张

  • 问题:VLA 能"开箱"学多样技能,但最后一毫米慢、要停顿重试、精密阶段小误差累积成失败。用 RL 微调是自然解法,但真机 RL 预算极紧(每 episode 耗时、每次失败磨损)。矛盾:大模型 RL 微调不够样本高效;小模型 RL 快但丢了 VLA 的泛化。
  • 主张让 VLA 暴露一个"RL token"——从 VLA 内部特征学一个紧凑 readout 表示,既保留任务相关的预训练知识、又当轻量在线 RL 的高效接口。在这个 token 上训小 actor-critic,并锚定到 VLA 的动作

二、方法

  • 训一个 encoder+decoder 从 VLA 内部特征产出 RL token(紧凑、有意义)。
  • 在 RL token 上训轻量 actor-critic,用样本高效在线 RL 算法;加正则把 actor 锚到 VLA 动作 → 在有希望的行为上精修、而非从零学。
  • 分工:冻结的 VLA 给宽广感知+动作建议;轻量 actor-critic 在线适配任务最难的部分。→ 大 VLA 也能被 RL 快速高效微调。

三、关键结果(📄)

  • 4 个 mm/亚 mm 精度任务:拧螺丝、扎线带、以太网口插入、充电器插入
  • 几小时至几分钟在线练习内显著提成功率与速度;最难阶段提速最多 3×;如拧螺丝 20%→65%
  • 某些最灵巧的部分超过专家遥操作速度且保持可靠。

四、局限(🤖 读后判断)

  • 真机在线练习(虽只几小时)与可验证奖励;4 个插装类任务,均属精密插入族,跨任务分布广度待验。
  • RL token 的可解释性有限;仍依赖底座 VLA 质量。

五、开源 / 出处

  • arXiv 2604.23073 v2(2026);Physical Intelligence(Sergey Levine 等)。项目页 pi.website/research/rlt。

六、对我们(精读后判断,🤖)

  • "冻结大模型 + 轻量 RL token 接口在线精修"是可迁移范式:与 卡片-TacCoRL(仿真接触 RL 后训练)、卡片-FD-VLA/卡片-HapticVLA(蒸馏)一样,都在解"预训练 VLA 怎么补最后一毫米",但 RLT 走真机在线 RL + 紧凑 readout token,最省样本。
  • 产业关联:出自 Physical Intelligence——见 产业地图-世界模型与隐空间路线(PI=VLA 阵营、$5.6B)。RLT 是 PI 在 π0 之后"如何把 VLA 精修到工业精度"的一手方法。
  • "RL token = VLA 内部特征的紧凑 readout"与"隐空间/潜动作"同源直觉(在压缩表示上做下游),可与 概念-隐空间与潜动作学习 对照:一个学动作、一个学 RL 接口。
  • projects/ demo 线有启发:先模仿学习拿到 base,再用少量真机 RL 精修关键阶段(插入/对齐)——是"demo 能用→可靠"的现实路径。