跳转至

机器人知识库

Genie —— 从无标注视频学出的可交互生成环境

Genie（生成式可交互环境）¶

📌 一句话：11B 基础世界模型，纯从无标注互联网视频学习，无需任何动作标签即可生成"可逐帧操控"的虚拟环境（文本/图片/草图皆可起手）。 🔬 全文精读 + 关键图 + 数字：详读-Genie

🧰 对我们（速判）¶

"无动作标签也能学世界模型"的代表：靠潜动作模型（latent action）自监督出可控性，对缺动作标注的机器人数据有启发。
真实性：高（ICML24 最佳论文，DeepMind）→ 证据 A。
能借：潜动作 + 时空 tokenizer 的范式；本身偏 2D 平台游戏世界，离真机操作有距离。

关键（摘要级）¶

📄 三件套：时空视频 tokenizer + 自回归动力学模型 + 潜动作模型；训练时无 ground-truth 动作标签。
📄 可由文本、图像、草图提示生成并逐帧交互。

来源¶

📄 Genie: Generative Interactive Environments, arXiv 2402.15391