跳转至

VT-WM:给世界模型加触觉,想象不再"穿模"

📌 一句话省流:纯视觉世界模型在遮挡/接触时会"幻觉"(物体消失/瞬移/违反物理);VT-WM 把触觉图并进隐空间世界模型,给接触做"物理锚定",想象更真、零样本规划更准。

🎬 演示:无明确项目页(arXiv;项目页待补)

🧰 对我们(可用性速判)

  • 对我们的用处:视触觉世界模型标杆,"触觉补视觉幻觉"讲得最清;是 idea1 的镜子/对照。
  • 真实性(前期):高(Meta/UW 大组 + 全文 + 清晰数字)。证据 B+。
  • 训练/微调资源:latent-state WM;规模/算力正文未细摘;触觉为视觉式。
  • 能借多少(开源):代码未确认(preprint);现借思路。
  • 可用性结论:思路对照为主;代码待确认。

要点(全文核实)

  • 首个多任务视触觉世界模型:latent-state WM,把视觉+触觉图投到隐空间,学动作条件的隐空间动力学,用于"想象中规划"。📄
  • 数字:想象保真 物体恒存 +33%遵守运动定律 +29%;真机零样本规划 最高 +35%(多步接触任务增益最大);少量演示即可迁移新任务。📄
  • 团队:UW + FAIR/Meta(Higuera/Mukadam/Meier);触觉为视觉式(GelSight/DIGIT)。📄

🔎 证据 / 来源

  • arXiv 2602.06001(2026-02,preprint)📄;代码未确认。证据 B+(大组+全文+清晰数字,缺开源确认)。

💡 与我们的关系(判断来源:🤖Claude,待复核)

  • "视觉+触觉联合世界模型"方向的代表:该"联合"方向已有 VT-WM 与 卡片-OmniVTA 等工作。
  • 路线差异(待复核):VT-WM 用触觉、做像素/想象规划,与 卡片-TacForeSight×卡片-LaWAM 的隐空间预测路线不同。
  • 价值:该读——它把"触觉补视觉幻觉"讲得最清楚,是这条线的标杆对照。

来源

  • [1] arXiv 2602.06001 · 本地 papers/VT-WM-VisuoTactileWorldModels-2602.06001.pdf