VPP(视频预测策略)¶
📌 一句话:用视频扩散模型抽取"含未来动态预测"的视觉表征当作机器人策略的输入,把"预见未来"显式编进表征里。
🧰 对我们(速判)¶
- 把世界模型当"表征器"而非独立 rollout 器:预测式视觉表征直接喂策略,工程上更轻。
- 真实性:高(ICML25)→ 证据 A。
- 能借:预测式视觉表征思路;与 卡片-GR-1 同属"视频预测先验 → 操作"一脉,适配真机灵巧操作。
关键(摘要级)¶
- 📄 利用视频扩散模型抽取兼含静态信息与预测未来动态的视觉表征。
- 📄 数字待核:摘要报 CALVIN ABC-D 相对提升 18.6%(以原文为准);真实世界灵巧操作有增益。