GR-2(生成式视频-语言-动作模型)¶
📌 一句话:先在 3800 万条网络视频上做大规模"预测未来视频"预训练拿到世界知识,再微调成"既能生成视频又能出动作"的通用操作策略。 🔬 全文精读 + 关键图 + 数字:详读-GR-2
🧰 对我们(速判)¶
- 能借:⚠️ 论文/项目页为主,未见明确开源权重(待核);可借的是"视频预训练 → 动作"的范式与数据规模思路。
- 资源:工业级数据/算力(3800 万视频预训练),自建难复现。
- 证据:A(字节研究 + 公开项目页 + 明确数字)。
关键(摘要级)¶
- 📄 预训练语料:~3800 万视频片段;下游同时做视频生成 + 动作预测。
- 📄 论文称 100+ 任务平均成功率约 97.7%(具体设定以原文为准)。