跳转至

RLT:VLA 负责"大致会做",小 actor-critic 在线 RL 负责"最后一毫米"

📌 一句话省流:VLA 靠模仿学习"开箱会做很多任务",但在最后一毫米(精密插入等关键阶段)慢、要停顿重试、小误差累积成失败。RLT 的做法:给预训练 VLA 加一个编码-解码 transformer,压出一个紧凑的"RL token"(1×2048)当状态接口;冻结 VLA,只在这个 token + VLA 参考动作上训一个轻量 actor-critic 做样本高效在线 RL,并正则锚定到 VLA 动作(把 RL 变成"在好先验附近局部精修"而非从零搜索)。4 个真机精密任务上,几分钟~几小时练习把最难阶段提速最高 3×、成功率大涨(螺钉插入 20%→65%),部分任务超过人类遥操速度

🎬 项目页:Physical Intelligence / RLT

🧰 对我们(可用性速判)

  • 对我们的用处高(方法论 + 直接补 T-Rex 空白)卡片-T-Rex 局限明说"未来接 RL/在线交互精修"——RLT 就是"怎么给 VLA 加在线 RL 精修"的实用配方:冻结大 VLA、只训小头、几小时真机就见效,工程门槛低。
  • 与触觉线的对照(重要)同一个"last millimeter"精度问题,两条路——T-Rex/卡片-Tactile-VLA触觉补精度,RLT 用在线 RL "练" 补精度(纯视觉、无触觉)。二者正交、可叠(触觉给状态 + 在线 RL 磨策略)。
  • 真实性:Physical Intelligence(π0 那家)真机 4 任务;但自采 benchmark、无第三方复现未见开源 → 事实档 🔶。
  • 训练/微调资源:base = π0.6(SigLIP 400M + Gemma 4B + 860M 动作专家);RL 只训小 actor-critic + RL-token 编解码器,冻结 VLA → 相对可行。需真机在线练习 + 人工标成功/失败(稀疏奖励)+ 可选人工干预。
  • 可用性结论作为"VLA + 在线 RL"的标杆配方读;思路(RL-token 接口 + chunk 级 + 锚定 VLA)可借。代码未放,直接用待定。

亮点到底在哪(读全文后定位)

  • 亮点在"接口设计 + 3 个关键取舍"
  • RL token(核心):给 VLA 末层 token 序列追加一个可学 <rl> 嵌入,用小编码器 transformer 在该位置读出 1×2048 的 RL token;再用解码器自回归重构原始嵌入——瓶颈迫使 token 保留任务相关信息(对 VLA 特征 stop-gradient)。这一个紧凑向量就是在线 RL 的"状态"。
  • chunk 级 off-policy(vs 单步):actor-critic 在动作块上学(RL chunk 长度 C < VLA 的 H=50),缩短稀疏奖励下的信用分配跨度——比 ConRFT/PLD 那种单步方法好学。
  • 条件+锚定 VLA 参考动作(vs 残差/噪声):actor 直接以 VLA 采样的参考动作块为条件、并正则拉近,把在线 RL 变成"在好先验附近局部精修",而非 Policy Decorator 的残差、或 GR-RL/DSRL 那种在扩散噪声空间隐式调制。
  • 配方:① 先用少量任务演示微调 VLA(改善初始策略 + 暴露 RL token);② 冻结 VLA,在线训小 actor-critic(条件 = RL token + VLA 参考动作),replay buffer 汇聚 VLA 策略 + RL 学习者 + 人工遥操干预。

关键数字(全文核实,[1])

  • 4 个真机精密任务(mm/亚 mm):螺钉安装 / 扎带紧固 / 充电器插入 / 以太网口插入。[1]
  • 最难阶段提速最高 3×;螺钉插入成功率 20% → 65%;部分任务超过专家遥操速度且保持可靠。[1]
  • 时间预算:几分钟到几小时真机练习内见效(样本高效是主打)。[1]
  • base:π0.6,动作块 H=50(≈1s 控制),实际开环执行前缀(如前 20 步)再重规划。[1]

🔎 证据与可信度

  • 论文arXiv 2604.23073 v2(2026-04-30)。Physical Intelligence(Charles Xu、Jost Tobias Springenberg、Michael Equi、Ali Amin、Adnan Esmail、Sergey Levine、Liyiming Ke)。✅ 方法/相关工作全文已读,⚠️ 逐实验表未核。
  • 定位(相关工作):vs 全 VLA RL(RECAP 离线 RL 优势加权训整个 π0.6;PPO 变体);vs 单步残差(ConRFT 一致性动作头、Policy Decorator 仿真百万步、PLD Cal-QL critic+单步残差);vs 扩散噪声空间(GR-RL 噪声预测器、DSRL 隐 latent 策略)。RLT 差异点 = RL-token 状态 + chunk 级 + 条件锚定 VLA。*
  • 第三方复现 / 开源:暂无 / 未见声明。
  • 证据等级:B(PI 大团队 + 真机强结果 + 清晰消融定位;自采、未开源、未逐表核)→ 权重:中(偏上)

🧪 复现成本(暂不亲做,只估)

  • 硬件:真机 + 4 相机(π0.6 支持最多 4 图)+ 人工标注成功/失败(稀疏奖励)+ 可选人工干预。
  • 模型:π0.6(冻结)+ 小 RL-token 编解码器 + 小 actor-critic。算力主要在 VLA 推理,RL 头很轻。
  • 时间:每任务分钟~小时级在线练习(这是卖点)。
  • 门槛:需 π0.6 权重(PI 自有)+ 真机在线 RL 工程栈(replay/critic/干预)→ 非开箱可复现。

🧱 局限(🟡 据全文推断 + 未逐表)

  • 纯视觉、无触觉:靠"练"补精度,接触状态不可观时可能仍难(可与触觉互补)。
  • 稀疏二值奖励 + 人工标注/干预:需要人在环,任务需能明确判成败。
  • 自采 4 任务、无第三方复现、未开源:泛化广度与可复现性待验。
  • 依赖 VLA 先验质量:若 VLA 初始策略太差,"局部精修"起点不够。

💡 我的批注 / 判断

  • 直接补 卡片-T-Rex 的 RL 空白:T-Rex 说长程/高精度"未来接 RL/在线精修",RLT 给了可落地的"怎么接"。触觉×VLA 若要上在线 RL,这是首选参考配方。
  • "冻结大模型 + 小头在线 RL + 锚定先验"是可迁移范式:和 卡片-EgoScale/卡片-T-Rex 的"贵阶段省着用"一脉——把昂贵的 VLA 冻住,只让便宜的小头在线学
  • RL token 的"瓶颈重构"很巧:不靠人挑 VLA 哪层特征,而是让重构损失自动逼出"够用的紧凑状态"——比手选特征/残差更省心。
  • 可操作组合想法:触觉给"状态可观性"(卡片-T-Rex 的触觉专家)+ RLT 给"策略在线磨"——触觉 RL token 或许是把两条精度路合一的方向(🤖 仅设想,需查新,别当新颖)。

来源编号