TacForeSight × LaWAM:两个"隐空间世界模型"的对照¶
为什么放一起读:两者是同一范式(在压缩隐空间里预测未来 + 小推演器喂大策略 + gating)用在不同模态——LaWAM 在视觉,TacForeSight 在触觉。把它们对齐,正好长出我"触觉融入 VLA"想法的成熟版。 详读来源:TacForeSight 全文(papers/TacForeSight-...2606.11184.pdf);LaWAM 见 LaWAM 论文解读(库内 06-26)。
一句话各自¶
- LaWAM:跳过像素生成,在冻结 DINO 视觉隐空间里一步非迭代推演未来视觉特征,给通用 VLA 物理前瞻。2.3B,187ms,Jetson Orin 30Hz。
- TacForeSight:抓住"腕部力的变化先于触觉响应"这个时序非对称,用 120Hz 力/力矩去预测短时触觉潜变量(TacForceWM),再当"预判先验"gating 融合视触觉,做前瞻式接触控制。~80M,20Hz RTX4090D。
逐维对照¶
| 维度 | LaWAM | TacForeSight |
|---|---|---|
| 模态 | V(视觉) | V + Tactile + Force(视触觉 + 腕部 6 轴力矩) |
| 世界模型预测什么 | 未来视觉特征轨迹 | 未来触觉潜变量动态(force→tactile) |
| 隐空间来源 | 冻结 DINOv2/v3 | 触觉 tokenizer(CNN-Transformer,自训);视觉用 DINOv2-small |
| 推演器规模 | 230M | 11.8M(TacForceWM) |
| 策略底座 | ~1.8B(通用 VLA Backbone) | 68.9M(任务专用,非通用 VLA) |
| 总规模 | 2.3B | ~80M |
| 预测方式 | 一步非迭代 | short-horizon chunk,force 条件(AdaLN) |
| 动作头 | Action Chunk | conditional flow-matching |
| gating(视触觉融合) | 无(纯视觉) | 有:channel-wise α = σ(MLP(tactile)),h = (1-α)·img + α·tac |
| 训练数据 | 4500h 无标签视频 | 2700 force-tactile episodes |
| 落地 | Jetson Orin,30Hz 工业实时 | RTX4090D,20Hz(尚未上端侧) |
| 核心洞见 | 特征级隐空间替代像素级生成 → 快 7.5× | force→tactile 时序非对称 → 预测式 grounding(前瞻>反应) |
我的判断(对照后才看得出的)¶
- 同构、可跨模态复用:两篇独立工作收敛到同一骨架——"压缩隐空间预测未来 + 小推演器 + 大/专策略 + gating"。说明隐空间世界模型是个模态无关的范式,不是视觉独有。
- 规模断层 = 机会:LaWAM 是 2.3B 通用底座,TacForeSight 是 ~80M 任务专用。触觉世界模型还没接到通用 VLA 上——这中间是空白。
- gating 已成共识:TacVLA、TacForeSight 都用 gating(接触/动态时才放大触觉)。再次否掉我"触觉常开 / 当特殊图片"的早期表示。
- TacForeSight 补了 LaWAM 缺的"因果条件":LaWAM 自回归推视觉特征;TacForeSight 用外部高频力信号作条件去预测另一模态——这种"用先行模态预测滞后模态"的 trick,LaWAM 没有,但很适合搬进来。
💡 由此长出的成熟版 idea(替代 06-23 的"特殊图片")¶
💡#idea [06-28] 双隐空间联合世界模型:把 LaWAM 式视觉隐空间推演与 TacForeSight 式触觉隐空间推演并联,用腕部力作跨模态条件,接触时 gating 融合,统一喂给通用 VLA 策略底座 = V+L+A+T+WM 的完整体。[待验证] - 这才是我"触觉融入 VLA"的正确形态:不是"当一张特殊图片"早融合,而是"当一个被力预测的隐空间动态,与视觉隐空间并行推演、接触时门控融合"。 - 与 机器人与VLA 的方向、模型架构 的"隐空间深思"一脉相承。
下一步¶
- [x] 核 LaWAM 出处 → ✅ 真实 arXiv 2606.15768(2026-06);核心数字(98.6%/91.22%/187ms/24×)摘要属实。⚠️ 但 LaWAM 论文解读 里的细节规格(2.3B/230M/Jetson Orin 等)摘要未提、待正文核——本对照表用到的 230M/1.8B/Jetson 数字同此告诫。
- [ ] 读 TacForeSight 的 SIGReg(防隐空间塌缩)——LaWAM 用 DINO 冻结隐空间天然不塌,二者处理"隐空间质量"的方式可对比。
- [ ] 这条"双隐空间联合"idea 值不值得做成小实验?先评估数据(需视触觉+力同步采集)与算力门槛。