跳转至

机器人知识库

GR-1 —— 大规模视频生成预训练用于机器人操作

GR-1（视频生成预训练 → 机器人操作）¶

📌 一句话：GPT 风格 transformer，先在大规模视频上做生成式预训练（学"预测下一帧"），再迁到机器人操作；在 CALVIN 等基准与真机上大幅提升。 🔬 全文精读 + 关键图 + 数字：详读-GR-1

🧰 对我们（速判）¶

"视频预测预训练当世界先验、再下游操作"的早期代表，GR 系列后续多代的起点。
真实性：高（ICLR24）→ 证据 A。
能借：视频预测预训练 + 动作头微调的两段式范式（与卡片-VPP 思路同源）。

关键（摘要级）¶

📄 大规模视频生成预训练 + 机器人数据微调，统一在 GPT 式 transformer。
📄 数字待核：摘要报 CALVIN 94.9% 成功率、零样本泛化 85.4%（以原文为准）。

来源¶

📄 Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation, arXiv 2312.13139