跳转至

机器人知识库

ViTacFormer：预测"未来触觉"比感知"当前触觉"更有用（跨注意力融合 + 自回归触觉预测头）

ViTacFormer：把"预测下一刻的触觉"塞进策略，撑起 2.5 分钟长程灵巧操作¶

📌 一句话省流：核心洞见——预测未来的触觉状态，比只感知当前触觉更有信息量。做法：基于 ACT（条件 VAE），用跨注意力在策略每一层融合高分辨率视觉+触觉，并加一个自回归"未来触觉预测头"逼迫共享隐空间编码可执行的接触动力学，再用预测的未来触觉生成动作；配两阶段课程（前 75% 用真值触觉稳住表征、后 25% 切换到预测触觉）。真机比强基线成功率约 +50%，并首次自主完成 11 段串接、连续 2.5 分钟的长程灵巧任务。

🎬 项目页：roboverseorg.github.io/ViTacFormerPage · 代码 github.com/RoboVerseOrg/ViTacFormer

🧰 对我们（可用性速判）¶

对我们的用处：中。"预测未来触觉→驱动动作"是可直接借的机制，与卡片-TacForeSight（触觉世界模型）思路呼应；作为卡片-T-Rex 的基线，帮助理解"为何小模型从零学不过预训练大模型"。
真实性：Berkeley（Abbeel/Malik）+ Sharpa，全文有真机长程结果 → 事实档 🔶。
训练/微调资源：中。base 是 ACT（轻量），代码已开源；但需双臂灵巧手 + 指尖触觉 + 遥操作采数（外骨骼手套 + VR）。
能借多少（开源）：代码开源（RoboVerseOrg）；机制清晰、可复用。
可用性结论：机制可借（未来触觉预测 + 跨注意力融合 + 课程）；但作为独立策略它依赖自采数据从零训练，无大规模预训练——这正是它在 T-Rex benchmark 上仅 3% 的原因。

亮点到底在哪（读核心后定位）¶

亮点在"洞见 + 一个头 + 一套课程"：
未来触觉预测头（核心洞见）：论断并实证"predict future tactile > perceive current tactile"——用自回归预测未来接触信号，强制共享隐空间编码可行动的触觉动力学。
跨注意力融合：视觉+触觉在策略每一阶段用 cross-attention 融合（非只在输入端拼接）。
两阶段课程（工程关键）：直接用"预测触觉"训练不稳定 → 前 75% 喂真值触觉、后 25% 切预测触觉，稳住表征再逼鲁棒。
最硬证据：首个真机完成 11 段、2.5 分钟连续长程灵巧任务；比强基线 ~+50% 成功率。

关键数字（核心已核，[1]）¶

比强基线约 +50% 成功率；11 段串接、>2.5 分钟连续操作（自称首次真机达成）。[1]
课程配比：前 75% 真值触觉 → 后 25% 预测触觉。[1]
在卡片-T-Rex 的 12 任务 benchmark 上仅 3%（从零、仅 100 演示、无预训练）——跨 benchmark 不可直接比，反映"无大规模预训练的小模型吃亏"，非其原论文设定下的表现。[2]

🔎 证据与可信度¶

论文：arXiv 2506.15953 v2（v2 2026-05-13；v1 2025-06）。UC Berkeley + 北京大学 + Sharpa；作者 Liang Heng、Haoran Geng（项目 lead）、Kaifeng Zhang、Pieter Abbeel、Jitendra Malik。✅ 摘要/方法/引言已读，⚠️ 实验表未逐核。
架构：基于 ACT（条件 VAE）；transformer 编码器出 style 变量 z，编码器-解码器结合 z + 本体 + 视触觉观测自回归预测未来触觉并生成动作。
硬件：双臂灵巧手 + 指尖触觉；遥操作 = 外骨骼手套 + VR 头显（含触觉反馈叠加）。（Sharpa 参与，硬件与 T-Rex 同源）
第三方复现：暂无。
证据等级：B（真机强结果 + 开源；未逐表核、无外部复现）→ 权重：中。

🧱 局限（🟡 未读到 Limitations 节，以下为据核心内容的推断，待验证）¶

无大规模预训练，强依赖自采数据从零训练 → 换任务/换域数据成本高（T-Rex 结果侧证其小样本弱）。
自回归预测触觉训练不稳定，需课程 trick 兜底。
长程"11 段"结果亮眼但为特定任务链，泛化广度待考。

💡 我的批注 / 判断¶

"预测未来触觉"与卡片-TacForeSight 是同一味道：都认为触觉的价值在前瞻/动力学预测而非静态感知——本库多篇共识"不把触觉当静态 image"。
和 T-Rex 的对照很有教育意义：ViTacFormer 是"强机制 + 无规模"的代表，卡片-EgoScale 是"强规模"，卡片-T-Rex = 规模(EgoScale) + 反应式控制(RDP) + 好触觉编码，把三者合一 → 说明当前 SOTA 是"机制 × 规模"缺一不可。
可借的最小单元：那个"未来触觉预测头 + 跨注意力"可作为轻量插件，加到我们关注的任何视触觉策略上试，代码开源、门槛低。

来源编号¶

[1] arXiv 2506.15953 v2（2026-05-13）· 项目页 · 代码 github.com/RoboVerseOrg/ViTacFormer · 本地 papers/ViTacFormer-CrossModalVisuoTactile-2506.15953.pdf（核心精读 2026-07-02，未逐实验表）
[2] T-Rex Table 1（arXiv 2606.17055）中 ViTacFormer 作为基线的分数