跳转至

机器人知识库

iVideoGPT —— 可交互、可扩展的自回归世界模型

iVideoGPT（可交互的可扩展世界模型）¶

📌 一句话：把视觉观测 + 动作 + 奖励统一成 token 序列做自回归下一 token 预测的世界模型，在百万级操作轨迹上预训练，可做视频预测 / 视觉规划 / model-based RL。 🔬 全文精读 + 关键图 + 数字：详读-iVideoGPT

🧰 对我们（速判）¶

GPT 式自回归世界模型代表：与 Genie 的潜动作路线相对，这里直接把动作/奖励 token 进序列，更贴近机器人控制闭环。
真实性：高（NeurIPS24）→ 证据 A。
能借：序列化（obs+action+reward）建模范式；可作机器人世界模型的预训练承载体。

关键（摘要级）¶

📄 自回归 transformer，将观测、动作、奖励作为 token 序列做下一 token 预测。
📄 百万级操作轨迹预训练；在视频预测、视觉规划、model-based RL 上具竞争力。

来源¶

📄 iVideoGPT: Interactive VideoGPTs are Scalable World Models, arXiv 2405.15223