跳转至

ViTacFormer:把"预测下一刻的触觉"塞进策略,撑起 2.5 分钟长程灵巧操作

📌 一句话省流:核心洞见——预测未来的触觉状态,比只感知当前触觉更有信息量。做法:基于 ACT(条件 VAE),用跨注意力在策略每一层融合高分辨率视觉+触觉,并加一个自回归"未来触觉预测头"逼迫共享隐空间编码可执行的接触动力学,再用预测的未来触觉生成动作;配两阶段课程(前 75% 用真值触觉稳住表征、后 25% 切换到预测触觉)。真机比强基线成功率约 +50%,并首次自主完成 11 段串接、连续 2.5 分钟的长程灵巧任务。

🎬 项目页:roboverseorg.github.io/ViTacFormerPage · 代码 github.com/RoboVerseOrg/ViTacFormer

🧰 对我们(可用性速判)

  • 对我们的用处。"预测未来触觉→驱动动作"是可直接借的机制,与 卡片-TacForeSight(触觉世界模型)思路呼应;作为 卡片-T-Rex 的基线,帮助理解"为何小模型从零学不过预训练大模型"。
  • 真实性:Berkeley(Abbeel/Malik)+ Sharpa,全文有真机长程结果 → 事实档 🔶。
  • 训练/微调资源。base 是 ACT(轻量),代码已开源;但需双臂灵巧手 + 指尖触觉 + 遥操作采数(外骨骼手套 + VR)。
  • 能借多少(开源)代码开源(RoboVerseOrg);机制清晰、可复用。
  • 可用性结论机制可借(未来触觉预测 + 跨注意力融合 + 课程);但作为独立策略它依赖自采数据从零训练,无大规模预训练——这正是它在 T-Rex benchmark 上仅 3% 的原因。

亮点到底在哪(读核心后定位)

  • 亮点在"洞见 + 一个头 + 一套课程"
  • 未来触觉预测头(核心洞见):论断并实证"predict future tactile > perceive current tactile"——用自回归预测未来接触信号,强制共享隐空间编码可行动的触觉动力学。
  • 跨注意力融合:视觉+触觉在策略每一阶段用 cross-attention 融合(非只在输入端拼接)。
  • 两阶段课程(工程关键):直接用"预测触觉"训练不稳定 → 前 75% 喂真值触觉、后 25% 切预测触觉,稳住表征再逼鲁棒。
  • 最硬证据:首个真机完成 11 段、2.5 分钟连续长程灵巧任务;比强基线 ~+50% 成功率。

关键数字(核心已核,[1])

  • 比强基线约 +50% 成功率;11 段串接、>2.5 分钟连续操作(自称首次真机达成)。[1]
  • 课程配比:前 75% 真值触觉 → 后 25% 预测触觉。[1]
  • 卡片-T-Rex 的 12 任务 benchmark 上仅 3%(从零、仅 100 演示、无预训练)——跨 benchmark 不可直接比,反映"无大规模预训练的小模型吃亏",非其原论文设定下的表现。[2]

🔎 证据与可信度

  • 论文arXiv 2506.15953 v2(v2 2026-05-13;v1 2025-06)。UC Berkeley + 北京大学 + Sharpa;作者 Liang Heng、Haoran Geng(项目 lead)、Kaifeng Zhang、Pieter Abbeel、Jitendra Malik。✅ 摘要/方法/引言已读,⚠️ 实验表未逐核。
  • 架构:基于 ACT(条件 VAE);transformer 编码器出 style 变量 z,编码器-解码器结合 z + 本体 + 视触觉观测自回归预测未来触觉并生成动作
  • 硬件:双臂灵巧手 + 指尖触觉;遥操作 = 外骨骼手套 + VR 头显(含触觉反馈叠加)。(Sharpa 参与,硬件与 T-Rex 同源)
  • 第三方复现:暂无。
  • 证据等级:B(真机强结果 + 开源;未逐表核、无外部复现)→ 权重:中

🧱 局限(🟡 未读到 Limitations 节,以下为据核心内容的推断,待验证)

  • 无大规模预训练,强依赖自采数据从零训练 → 换任务/换域数据成本高(T-Rex 结果侧证其小样本弱)。
  • 自回归预测触觉训练不稳定,需课程 trick 兜底。
  • 长程"11 段"结果亮眼但为特定任务链,泛化广度待考。

💡 我的批注 / 判断

  • "预测未来触觉"与 卡片-TacForeSight 是同一味道:都认为触觉的价值在前瞻/动力学预测而非静态感知——本库多篇共识"不把触觉当静态 image"。
  • 和 T-Rex 的对照很有教育意义:ViTacFormer 是"强机制 + 无规模"的代表,卡片-EgoScale 是"强规模",卡片-T-Rex = 规模(EgoScale) + 反应式控制(RDP) + 好触觉编码,把三者合一 → 说明当前 SOTA 是"机制 × 规模"缺一不可。
  • 可借的最小单元:那个"未来触觉预测头 + 跨注意力"可作为轻量插件,加到我们关注的任何视触觉策略上试,代码开源、门槛低。

来源编号