RLT：VLA 负责"大致会做"，小 actor-critic 在线 RL 负责"最后一毫米"¶

📌 一句话省流：VLA 靠模仿学习"开箱会做很多任务"，但在最后一毫米（精密插入等关键阶段）慢、要停顿重试、小误差累积成失败。RLT 的做法：给预训练 VLA 加一个编码-解码 transformer，压出一个紧凑的"RL token"（1×2048）当状态接口；冻结 VLA，只在这个 token + VLA 参考动作上训一个轻量 actor-critic 做样本高效在线 RL，并正则锚定到 VLA 动作（把 RL 变成"在好先验附近局部精修"而非从零搜索）。4 个真机精密任务上，几分钟~几小时练习把最难阶段提速最高 3×、成功率大涨（螺钉插入 20%→65%），部分任务超过人类遥操速度。

🎬 项目页：Physical Intelligence / RLT

🧰 对我们（可用性速判）¶

对我们的用处：高（方法论 + 直接补 T-Rex 空白）。卡片-T-Rex 局限明说"未来接 RL/在线交互精修"——RLT 就是"怎么给 VLA 加在线 RL 精修"的实用配方：冻结大 VLA、只训小头、几小时真机就见效，工程门槛低。
与触觉线的对照（重要）：同一个"last millimeter"精度问题，两条路——T-Rex/卡片-Tactile-VLA 用触觉补精度，RLT 用在线 RL "练" 补精度（纯视觉、无触觉）。二者正交、可叠（触觉给状态 + 在线 RL 磨策略）。
真实性：Physical Intelligence（π0 那家）真机 4 任务；但自采 benchmark、无第三方复现、未见开源 → 事实档 🔶。
训练/微调资源：base = π0.6（SigLIP 400M + Gemma 4B + 860M 动作专家）；RL 只训小 actor-critic + RL-token 编解码器，冻结 VLA → 相对可行。需真机在线练习 + 人工标成功/失败（稀疏奖励）+ 可选人工干预。
可用性结论：作为"VLA + 在线 RL"的标杆配方读；思路（RL-token 接口 + chunk 级 + 锚定 VLA）可借。代码未放，直接用待定。

亮点到底在哪（读全文后定位）¶

亮点在"接口设计 + 3 个关键取舍"：
RL token（核心）：给 VLA 末层 token 序列追加一个可学 <rl> 嵌入，用小编码器 transformer 在该位置读出 1×2048 的 RL token；再用解码器自回归重构原始嵌入——瓶颈迫使 token 保留任务相关信息（对 VLA 特征 stop-gradient）。这一个紧凑向量就是在线 RL 的"状态"。
chunk 级 off-policy（vs 单步）：actor-critic 在动作块上学（RL chunk 长度 C < VLA 的 H=50），缩短稀疏奖励下的信用分配跨度——比 ConRFT/PLD 那种单步方法好学。
条件+锚定 VLA 参考动作（vs 残差/噪声）：actor 直接以 VLA 采样的参考动作块为条件、并正则拉近，把在线 RL 变成"在好先验附近局部精修"，而非 Policy Decorator 的残差、或 GR-RL/DSRL 那种在扩散噪声空间隐式调制。
配方：① 先用少量任务演示微调 VLA（改善初始策略 + 暴露 RL token）；② 冻结 VLA，在线训小 actor-critic（条件 = RL token + VLA 参考动作），replay buffer 汇聚 VLA 策略 + RL 学习者 + 人工遥操干预。

关键数字（全文核实，[1]）¶

4 个真机精密任务（mm/亚 mm）：螺钉安装 / 扎带紧固 / 充电器插入 / 以太网口插入。[1]
最难阶段提速最高 3×；螺钉插入成功率 20% → 65%；部分任务超过专家遥操速度且保持可靠。[1]
时间预算：几分钟到几小时真机练习内见效（样本高效是主打）。[1]
base：π0.6，动作块 H=50（≈1s 控制），实际开环执行前缀（如前 20 步）再重规划。[1]

🔎 证据与可信度¶

论文：arXiv 2604.23073 v2（2026-04-30）。Physical Intelligence（Charles Xu、Jost Tobias Springenberg、Michael Equi、Ali Amin、Adnan Esmail、Sergey Levine、Liyiming Ke）。✅ 方法/相关工作全文已读，⚠️ 逐实验表未核。
定位（相关工作）：vs 全 VLA RL（RECAP 离线 RL 优势加权训整个 π0.6；PPO 变体）；vs 单步残差（ConRFT 一致性动作头、Policy Decorator 仿真百万步、PLD Cal-QL critic+单步残差）；vs 扩散噪声空间（GR-RL 噪声预测器、DSRL 隐 latent 策略）。RLT 差异点 = RL-token 状态 + chunk 级 + 条件锚定 VLA。*
第三方复现 / 开源：暂无 / 未见声明。
证据等级：B（PI 大团队 + 真机强结果 + 清晰消融定位；自采、未开源、未逐表核）→ 权重：中(偏上)。

🧪 复现成本（暂不亲做，只估）¶

硬件：真机 + 4 相机（π0.6 支持最多 4 图）+ 人工标注成功/失败（稀疏奖励）+ 可选人工干预。
模型：π0.6（冻结）+ 小 RL-token 编解码器 + 小 actor-critic。算力主要在 VLA 推理，RL 头很轻。
时间：每任务分钟~小时级在线练习（这是卖点）。
门槛：需 π0.6 权重（PI 自有）+ 真机在线 RL 工程栈（replay/critic/干预）→ 非开箱可复现。

🧱 局限（🟡 据全文推断 + 未逐表）¶

纯视觉、无触觉：靠"练"补精度，接触状态不可观时可能仍难（可与触觉互补）。
稀疏二值奖励 + 人工标注/干预：需要人在环，任务需能明确判成败。
自采 4 任务、无第三方复现、未开源：泛化广度与可复现性待验。
依赖 VLA 先验质量：若 VLA 初始策略太差，"局部精修"起点不够。

💡 我的批注 / 判断¶

直接补卡片-T-Rex 的 RL 空白：T-Rex 说长程/高精度"未来接 RL/在线精修"，RLT 给了可落地的"怎么接"。触觉×VLA 若要上在线 RL，这是首选参考配方。
"冻结大模型 + 小头在线 RL + 锚定先验"是可迁移范式：和卡片-EgoScale/卡片-T-Rex 的"贵阶段省着用"一脉——把昂贵的 VLA 冻住，只让便宜的小头在线学。
RL token 的"瓶颈重构"很巧：不靠人挑 VLA 哪层特征，而是让重构损失自动逼出"够用的紧凑状态"——比手选特征/残差更省心。
可操作组合想法：触觉给"状态可观性"（卡片-T-Rex 的触觉专家）+ RLT 给"策略在线磨"——触觉 RL token 或许是把两条精度路合一的方向（🤖 仅设想，需查新，别当新颖）。

来源编号¶

[1] arXiv 2604.23073 v2（2026-04-30）· 项目页 pi.website/research/rlt · 本地 papers/RLT-RLToken-OnlineRL-VLA-2604.23073.pdf（全文方法精读 2026-07-03，未逐实验表）