跳转至

Genie(生成式可交互环境)

📌 一句话:11B 基础世界模型,纯从无标注互联网视频学习,无需任何动作标签即可生成"可逐帧操控"的虚拟环境(文本/图片/草图皆可起手)。 🔬 全文精读 + 关键图 + 数字详读-Genie

🧰 对我们(速判)

  • "无动作标签也能学世界模型"的代表:靠潜动作模型(latent action)自监督出可控性,对缺动作标注的机器人数据有启发。
  • 真实性:高(ICML24 最佳论文,DeepMind)→ 证据 A。
  • 能借:潜动作 + 时空 tokenizer 的范式;本身偏 2D 平台游戏世界,离真机操作有距离。

关键(摘要级)

  • 📄 三件套:时空视频 tokenizer + 自回归动力学模型 + 潜动作模型;训练时无 ground-truth 动作标签。
  • 📄 可由文本、图像、草图提示生成并逐帧交互。

来源