跳转至

OmniVTA:用"两流"分别预测视觉与触觉的未来

📌 一句话省流:一个 world-model 式视触觉操作框架——两流条件生成架构分别建模视觉观测与触觉信号的短时演化;配自监督触觉编码器(LTD,捕捉触觉差分)+ 隐式神经解码器出力场;并放出多平台触觉-动作对齐数据集。

🎬 演示:项目页 mrsecant.github.io/OmniVTA

🧰 对我们(可用性速判)

  • 对我们的用处:两流视触觉世界模型(最强撞 idea1);其多平台对齐数据集设计可借。
  • 真实性(前期):中高(全文 + 数据集,代码待发布)。证据 B。
  • 训练/微调资源:两流条件生成 WM;规模正文未细摘。
  • 能借多少(开源):代码/数据/模型承诺待发布;现借思路+数据集设计。
  • 可用性结论:思路+数据集设计可借;代码待放。

要点(全文核实)

  • 三件套:① 多平台触觉-动作对齐数据集(补"现有数据小而窄"); ② OmniVTA 两流条件生成视触觉世界模型预测短时接触; ③ Latent Tactile Differential(LTD)编码器。📄
  • "准确的触觉预测对可靠[操作]至关重要"是其核心论点;任务分"精度主导"vs"表面主导"两类。📄
  • 代码/数据/模型承诺开源(mrsecant.github.io/OmniVTA),未发布。📄

🔎 证据 / 来源

  • arXiv 2603.19201(2026-03)📄。证据 B(全文+数据集,但代码待发布、未见第三方)。

💡 与我们的关系(判断来源:🤖Claude,待复核)

  • 与"双隐空间联合 WM"设想高度相关:OmniVTA 就是"两流分别预测视觉与触觉未来"——和该设想几乎同构。
  • 残留差异(薄,待复核):它偏条件生成(像素/信号级),与隐空间预测类路线不同;具体差异待进一步验证。
  • 价值:必读对照,且它的对齐数据集思路可借。

来源