跳转至

机器人知识库

read RLT

type: 详读（中文全文摘要） domain: 大脑·学习方法对应卡片: 卡片-RLT arxiv: "2604.23073" 来源: 全文精读(arXiv txt 正文 v2)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-07-04

详读 · RL Token：用 VLA 的紧凑表示引导样本高效在线 RL（Physical Intelligence，2026）¶

一、问题与核心主张¶

问题：VLA 能"开箱"学多样技能，但最后一毫米慢、要停顿重试、精密阶段小误差累积成失败。用 RL 微调是自然解法，但真机 RL 预算极紧(每 episode 耗时、每次失败磨损)。矛盾：大模型 RL 微调不够样本高效；小模型 RL 快但丢了 VLA 的泛化。
主张：让 VLA 暴露一个"RL token"——从 VLA 内部特征学一个紧凑 readout 表示，既保留任务相关的预训练知识、又当轻量在线 RL 的高效接口。在这个 token 上训小 actor-critic，并锚定到 VLA 的动作。

二、方法¶

训一个 encoder+decoder 从 VLA 内部特征产出 RL token(紧凑、有意义)。
在 RL token 上训轻量 actor-critic，用样本高效在线 RL 算法；加正则把 actor 锚到 VLA 动作 → 在有希望的行为上精修、而非从零学。
分工：冻结的 VLA 给宽广感知+动作建议；轻量 actor-critic 在线适配任务最难的部分。→ 大 VLA 也能被 RL 快速高效微调。

三、关键结果（📄）¶

4 个 mm/亚 mm 精度任务：拧螺丝、扎线带、以太网口插入、充电器插入。
几小时至几分钟在线练习内显著提成功率与速度；最难阶段提速最多 3×；如拧螺丝 20%→65%。
某些最灵巧的部分超过专家遥操作速度且保持可靠。

四、局限（🤖 读后判断）¶

需真机在线练习(虽只几小时)与可验证奖励；4 个插装类任务，均属精密插入族，跨任务分布广度待验。
RL token 的可解释性有限；仍依赖底座 VLA 质量。

五、开源 / 出处¶

arXiv 2604.23073 v2(2026)；Physical Intelligence(Sergey Levine 等)。项目页 pi.website/research/rlt。

六、对我们（精读后判断，🤖）¶

"冻结大模型 + 轻量 RL token 接口在线精修"是可迁移范式：与卡片-TacCoRL(仿真接触 RL 后训练)、卡片-FD-VLA/卡片-HapticVLA(蒸馏)一样，都在解"预训练 VLA 怎么补最后一毫米"，但 RLT 走真机在线 RL + 紧凑 readout token，最省样本。
产业关联：出自 Physical Intelligence——见产业地图-世界模型与隐空间路线(PI=VLA 阵营、$5.6B)。RLT 是 PI 在 π0 之后"如何把 VLA 精修到工业精度"的一手方法。
"RL token = VLA 内部特征的紧凑 readout"与"隐空间/潜动作"同源直觉(在压缩表示上做下游)，可与概念-隐空间与潜动作学习对照：一个学动作、一个学 RL 接口。
对 projects/ demo 线有启发：先模仿学习拿到 base，再用少量真机 RL 精修关键阶段(插入/对齐)——是"demo 能用→可靠"的现实路径。