跳转至

GR-2(生成式视频-语言-动作模型)

📌 一句话:先在 3800 万条网络视频上做大规模"预测未来视频"预训练拿到世界知识,再微调成"既能生成视频又能出动作"的通用操作策略。 🔬 全文精读 + 关键图 + 数字详读-GR-2

🧰 对我们(速判)

  • 能借:⚠️ 论文/项目页为主,未见明确开源权重(待核);可借的是"视频预训练 → 动作"的范式与数据规模思路。
  • 资源:工业级数据/算力(3800 万视频预训练),自建难复现。
  • 证据:A(字节研究 + 公开项目页 + 明确数字)。

关键(摘要级)

  • 📄 预训练语料:~3800 万视频片段;下游同时做视频生成 + 动作预测。
  • 📄 论文称 100+ 任务平均成功率约 97.7%(具体设定以原文为准)。

来源