跳转至

机器人知识库

OmniVTA：两流条件生成的视触觉世界模型 + 多平台对齐数据集

OmniVTA：用"两流"分别预测视觉与触觉的未来¶

📌 一句话省流：一个 world-model 式视触觉操作框架——两流条件生成架构分别建模视觉观测与触觉信号的短时演化；配自监督触觉编码器(LTD，捕捉触觉差分)+ 隐式神经解码器出力场；并放出多平台触觉-动作对齐数据集。

🎬 演示：项目页 mrsecant.github.io/OmniVTA

🧰 对我们（可用性速判）¶

对我们的用处：两流视触觉世界模型(最强撞 idea1)；其多平台对齐数据集设计可借。
真实性(前期)：中高（全文 + 数据集，代码待发布）。证据 B。
训练/微调资源：两流条件生成 WM；规模正文未细摘。
能借多少(开源)：代码/数据/模型承诺待发布；现借思路+数据集设计。
可用性结论：思路+数据集设计可借；代码待放。

要点（全文核实）¶

三件套：① 多平台触觉-动作对齐数据集(补"现有数据小而窄"); ② OmniVTA 两流条件生成视触觉世界模型预测短时接触; ③ Latent Tactile Differential(LTD)编码器。📄
"准确的触觉预测对可靠[操作]至关重要"是其核心论点;任务分"精度主导"vs"表面主导"两类。📄
代码/数据/模型承诺开源(mrsecant.github.io/OmniVTA)，未发布。📄

🔎 证据 / 来源¶

arXiv 2603.19201（2026-03）📄。证据 B（全文+数据集，但代码待发布、未见第三方）。

💡 与我们的关系（判断来源：🤖Claude，待复核）¶

与"双隐空间联合 WM"设想高度相关：OmniVTA 就是"两流分别预测视觉与触觉未来"——和该设想几乎同构。
残留差异(薄，待复核)：它偏条件生成(像素/信号级)，与隐空间预测类路线不同；具体差异待进一步验证。
价值：必读对照，且它的对齐数据集思路可借。

来源¶

[1] arXiv 2603.19201 · 项目 · 本地 papers/OmniVTA-视触觉世界模型-2603.19201.pdf