ViTacFormer:把"预测下一刻的触觉"塞进策略,撑起 2.5 分钟长程灵巧操作¶
📌 一句话省流:核心洞见——预测未来的触觉状态,比只感知当前触觉更有信息量。做法:基于 ACT(条件 VAE),用跨注意力在策略每一层融合高分辨率视觉+触觉,并加一个自回归"未来触觉预测头"逼迫共享隐空间编码可执行的接触动力学,再用预测的未来触觉生成动作;配两阶段课程(前 75% 用真值触觉稳住表征、后 25% 切换到预测触觉)。真机比强基线成功率约 +50%,并首次自主完成 11 段串接、连续 2.5 分钟的长程灵巧任务。
🎬 项目页:roboverseorg.github.io/ViTacFormerPage · 代码 github.com/RoboVerseOrg/ViTacFormer
🧰 对我们(可用性速判)¶
- 对我们的用处:中。"预测未来触觉→驱动动作"是可直接借的机制,与 卡片-TacForeSight(触觉世界模型)思路呼应;作为 卡片-T-Rex 的基线,帮助理解"为何小模型从零学不过预训练大模型"。
- 真实性:Berkeley(Abbeel/Malik)+ Sharpa,全文有真机长程结果 → 事实档 🔶。
- 训练/微调资源:中。base 是 ACT(轻量),代码已开源;但需双臂灵巧手 + 指尖触觉 + 遥操作采数(外骨骼手套 + VR)。
- 能借多少(开源):代码开源(RoboVerseOrg);机制清晰、可复用。
- 可用性结论:机制可借(未来触觉预测 + 跨注意力融合 + 课程);但作为独立策略它依赖自采数据从零训练,无大规模预训练——这正是它在 T-Rex benchmark 上仅 3% 的原因。
亮点到底在哪(读核心后定位)¶
- 亮点在"洞见 + 一个头 + 一套课程":
- 未来触觉预测头(核心洞见):论断并实证"predict future tactile > perceive current tactile"——用自回归预测未来接触信号,强制共享隐空间编码可行动的触觉动力学。
- 跨注意力融合:视觉+触觉在策略每一阶段用 cross-attention 融合(非只在输入端拼接)。
- 两阶段课程(工程关键):直接用"预测触觉"训练不稳定 → 前 75% 喂真值触觉、后 25% 切预测触觉,稳住表征再逼鲁棒。
- 最硬证据:首个真机完成 11 段、2.5 分钟连续长程灵巧任务;比强基线 ~+50% 成功率。
关键数字(核心已核,[1])¶
- 比强基线约 +50% 成功率;11 段串接、>2.5 分钟连续操作(自称首次真机达成)。[1]
- 课程配比:前 75% 真值触觉 → 后 25% 预测触觉。[1]
- 在 卡片-T-Rex 的 12 任务 benchmark 上仅 3%(从零、仅 100 演示、无预训练)——跨 benchmark 不可直接比,反映"无大规模预训练的小模型吃亏",非其原论文设定下的表现。[2]
🔎 证据与可信度¶
- 论文:arXiv 2506.15953 v2(v2 2026-05-13;v1 2025-06)。UC Berkeley + 北京大学 + Sharpa;作者 Liang Heng、Haoran Geng(项目 lead)、Kaifeng Zhang、Pieter Abbeel、Jitendra Malik。✅ 摘要/方法/引言已读,⚠️ 实验表未逐核。
- 架构:基于 ACT(条件 VAE);transformer 编码器出 style 变量 z,编码器-解码器结合 z + 本体 + 视触觉观测自回归预测未来触觉并生成动作。
- 硬件:双臂灵巧手 + 指尖触觉;遥操作 = 外骨骼手套 + VR 头显(含触觉反馈叠加)。(Sharpa 参与,硬件与 T-Rex 同源)
- 第三方复现:暂无。
- 证据等级:B(真机强结果 + 开源;未逐表核、无外部复现)→ 权重:中。
🧱 局限(🟡 未读到 Limitations 节,以下为据核心内容的推断,待验证)¶
- 无大规模预训练,强依赖自采数据从零训练 → 换任务/换域数据成本高(T-Rex 结果侧证其小样本弱)。
- 自回归预测触觉训练不稳定,需课程 trick 兜底。
- 长程"11 段"结果亮眼但为特定任务链,泛化广度待考。
💡 我的批注 / 判断¶
- "预测未来触觉"与 卡片-TacForeSight 是同一味道:都认为触觉的价值在前瞻/动力学预测而非静态感知——本库多篇共识"不把触觉当静态 image"。
- 和 T-Rex 的对照很有教育意义:ViTacFormer 是"强机制 + 无规模"的代表,卡片-EgoScale 是"强规模",卡片-T-Rex = 规模(EgoScale) + 反应式控制(RDP) + 好触觉编码,把三者合一 → 说明当前 SOTA 是"机制 × 规模"缺一不可。
- 可借的最小单元:那个"未来触觉预测头 + 跨注意力"可作为轻量插件,加到我们关注的任何视触觉策略上试,代码开源、门槛低。
来源编号¶
- [1] arXiv 2506.15953 v2(2026-05-13)· 项目页 · 代码 github.com/RoboVerseOrg/ViTacFormer · 本地
papers/ViTacFormer-CrossModalVisuoTactile-2506.15953.pdf(核心精读 2026-07-02,未逐实验表) - [2] T-Rex Table 1(arXiv 2606.17055)中 ViTacFormer 作为基线的分数