跳转至

GR-1(视频生成预训练 → 机器人操作)

📌 一句话:GPT 风格 transformer,先在大规模视频上做生成式预训练(学"预测下一帧"),再迁到机器人操作;在 CALVIN 等基准与真机上大幅提升。 🔬 全文精读 + 关键图 + 数字详读-GR-1

🧰 对我们(速判)

  • "视频预测预训练当世界先验、再下游操作"的早期代表,GR 系列后续多代的起点。
  • 真实性:高(ICLR24)→ 证据 A。
  • 能借:视频预测预训练 + 动作头微调的两段式范式(与 卡片-VPP 思路同源)。

关键(摘要级)

  • 📄 大规模视频生成预训练 + 机器人数据微调,统一在 GPT 式 transformer。
  • 📄 数字待核:摘要报 CALVIN 94.9% 成功率、零样本泛化 85.4%(以原文为准)。

来源