跳转至

机器人知识库

TacCoRL：在仿真里把触觉注入 VLA + RL 后训练（免大规模触觉预训练）

TacCoRL：不做触觉预训练，用"仿真 RL 后训练"给现成 VLA 装上触觉¶

📌 一句话省流：把触觉塞进 VLA 的另一条路——不训触觉大模型、也不在真机上冒险探索接触，而是把它当sim-to-real 后训练：① 混合"真实演示 + 仿真遥操作(MimicGen 扩增)"做 sim-real 共训，给预训练 VLA 一个触觉条件动作先验；② 在与真实对齐的仿真器里用稀疏奖励 RL 强化"接触→成功"的闭环修正，同时用真机数据的监督损失把策略锚在真实分布上。结果直接迁到真机(无特权仿真状态、无在线真机 RL)。核心洞见：不只是"把触觉当输入"，而是学触觉读数在"接近失败态"(演示里罕见、硬件上危险)该如何调制动作。

🎬 演示：tac-corl.github.io 🔗 概念背景：概念-隐空间与潜动作学习（触觉×VLA 融合谱）

🧰 对我们（可用性速判）¶

用处：触觉×VLA 的低成本注入路线——省掉大规模触觉预训练和危险的真机接触探索，用仿真 RL 补"近失败态"的触觉修正。
真实性：全文已核(B)；4 个双臂接触密集任务真机评测。
训练/微调资源：需与真实对齐的仿真器 + 触觉接触界面标定(sim2real 对齐是主要工程量)；MimicGen 扩数据。
能借多少(开源)：代码未确认(有视频) → 主要借框架思路。
可用性结论：手上有触觉硬件但缺大规模触觉数据、又想安全地学"接触修正"时，这套 sim-RL 后训练值得借。

亮点到底在哪（读全文后定位）¶

亮点在"用途定位"：不与卡片-OmniVTLA/卡片-Tactile-VLA 比"触觉编码器/表征"，而是主打"接近失败态的接触修正在演示里学不到、硬件上危险采" → 用可复位、可验证奖励的仿真闭环补这一块。[1]
contact-aware gating：触觉信息经门控同时调制 VLM 上下文与动作专家。[1]
三段流水线：数据(真+仿 MimicGen) → sim-real 共训(SFT) → 仿真 RL 微调(PPO 式 + 真机监督锚)。[1]

关键数字（全文核实 📄）¶

4 个双臂接触密集任务(拼图/试管插入/装配等)：最终视触策略均值 72.5% vs 基线 50.0%。[1]

🔎 证据与可信度¶

论文：arXiv 2606.11743(2026-06)；UCLA + UCSD(Hao Su) + UESTC + 北大 + Utah。✅ 全文已读。
代码：未确认(项目页有视频)。证据等级 B——全文+4 任务核实；扣分因任务少、无大规模基准、代码未确认、很新无第三方复现。

🧱 局限（🤖 读后判断）¶

强依赖高保真、接触对齐的仿真器——sim2real 接触标定难，是这套方法的门槛与风险点。
仅 4 个任务、双臂夹爪；触觉主要用作"接触状态"，未做高分辨纹理/材质。

💡 我的批注 / 判断（🤖）¶

与库内触觉×VLA 谱互补：卡片-OmniVTLA/卡片-Tactile-VLA 攻表征/融合、卡片-HapticVLA/卡片-FD-VLA 攻免传感器部署、TacCoRL 攻"接触修正怎么在仿真里安全学"。三类正交，可组合。
与卡片-RLT 呼应：都把 RL 后训练用于 VLA；RLT 是在线 token 级 RL，TacCoRL 是仿真接触 RL + 真机监督锚。
与详读-DexMimicGen 关联：用 MimicGen 扩仿真数据 → 数据侧接得上。

来源编号¶

[1] arXiv 2606.11743（全文 txt 精读 2026-07-04）· 本地 papers/TacCoRL-2606.11743.pdf