iVideoGPT(可交互的可扩展世界模型)¶
📌 一句话:把视觉观测 + 动作 + 奖励统一成 token 序列做自回归下一 token 预测的世界模型,在百万级操作轨迹上预训练,可做视频预测 / 视觉规划 / model-based RL。 🔬 全文精读 + 关键图 + 数字:详读-iVideoGPT
🧰 对我们(速判)¶
- GPT 式自回归世界模型代表:与 Genie 的潜动作路线相对,这里直接把动作/奖励 token 进序列,更贴近机器人控制闭环。
- 真实性:高(NeurIPS24)→ 证据 A。
- 能借:序列化(obs+action+reward)建模范式;可作机器人世界模型的预训练承载体。
关键(摘要级)¶
- 📄 自回归 transformer,将观测、动作、奖励作为 token 序列做下一 token 预测。
- 📄 百万级操作轨迹预训练;在视频预测、视觉规划、model-based RL 上具竞争力。