跳转至

机器人知识库

GR-2 —— 网络视频预训练的生成式视频-语言-动作模型

GR-2（生成式视频-语言-动作模型）¶

📌 一句话：先在 3800 万条网络视频上做大规模"预测未来视频"预训练拿到世界知识，再微调成"既能生成视频又能出动作"的通用操作策略。 🔬 全文精读 + 关键图 + 数字：详读-GR-2

🧰 对我们（速判）¶

能借：⚠️ 论文/项目页为主，未见明确开源权重（待核）；可借的是"视频预训练 → 动作"的范式与数据规模思路。
资源：工业级数据/算力（3800 万视频预训练），自建难复现。
证据：A（字节研究 + 公开项目页 + 明确数字）。

关键（摘要级）¶

📄 预训练语料：~3800 万视频片段；下游同时做视频生成 + 动作预测。
📄 论文称 100+ 任务平均成功率约 97.7%（具体设定以原文为准）。

来源¶

📄 GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge ..., arXiv 2410.06158 · 项目页
关联：卡片-3D-VLA（世界模型路线） · 概念-模型架构基础