LAPA:从"无动作标签的视频"学潜动作,预训练 VLA¶
📅 2024-10 · 🏛 KAIST/UW/MSR/NVIDIA/Ai2 · 🏷 学习方法·潜动作预训练 📌 一句话省流:机器人最贵的是"动作标注"。LAPA 用 VQ-VAE 从无标注视频里自己发明一套"潜动作"(描述帧间怎么变),让大模型先学预测潜动作,再用很少真机数据把潜动作翻译成真动作——不用大规模动作标注也能预训练 VLA,连人类视频都能用。 ≈ 打比方:不教机器人"具体怎么动",先让它看视频自己总结"动作的语法",再学几句"方言"对接真机。 🔬 详读:详读-LAPA 🎬 项目页
🧰 对我们(可用性速判)¶
- 对我们的用处:"省真机标注"路线的代表作——直接绕开最贵的动作标注,从海量(甚至人类)视频学,30× 省算力。直接指导我们"数据底座"策略(参见 概念-机器人数据与标注)。
- 真实性:✅ 全文精读 + ICLR 2025 + 有 ConLA 后续改进。
- 训练/微调资源:预训练 272 H100h(比 OpenVLA 21,500 A100h 省 ~30×);下游每任务仅 150 条。
- 能借多少(开源):承诺开源 checkpoint + 代码(项目页)。
- 可用性结论:思路直接可借 / 待权重放出可用。
- 🔬 详读(全文):详读-LAPA
亮点(全文精读后定位)¶
- 潜动作量化:VQ-VAE(NSVQ + 交叉注意防坍缩)从连续帧学离散潜动作 token,无需动作标签。
- 三段:潜动作量化 → VLM(7B)预测潜动作(BC) → 小标注集换动作头微调。
- 人类视频也能用:用 Something-Something V2 人类视频预训练,竟超有动作标签的 OpenVLA(BridgeV2)。
- 30× 省算力:272 H100h vs OpenVLA 21,500 A100h。
关键数字(每条带来源 [n])¶
- [1] LAPA(Open-X) 真机桌面 50.1% vs OpenVLA 43.9%,算力 ~30× 更省(272 H100h vs 21,500 A100h)。✅📄
- [2] Language Table 仿真 62.0%(vs Vpt 44.0,ActionVLA 上界 77.0)。✅📄
- [3] 数据:BridgeV2 6 万 + Open-X 97 万 + Something-Something V2 22 万人类视频;下游每任务 150 条。✅📄
- [4] 🔶 后续 ConLA(2602.00557) SimplerEnv 超 LAPA +12.5%(转述,未精读)。
🔎 证据与可信度(见 _卡片规范)¶
- 论文:arXiv 2410.11758,ICLR 2025(✅ 全文精读)。
- 代码/权重:承诺开源(项目页)。
- 证据等级:A → 权重:中(偏上)。
🧪 复现条件与成本(暂不亲做,只估)¶
- 预训练:272 H100h(相对省);下游每任务 150 条小数据。
- 侧证判价值:ICLR ✅ / 30× 省算力 ✅ / 人类视频迁移实证 ✅。
💡 我的批注 / 判断(🤖,待人复核)¶
- 与 卡片-GR00T-N1 强绑:GR00T 数据金字塔底层正用 LAPA 式潜动作从人类视频学——"省真机数据"的标杆。
- "潜动作"与本库"隐空间世界模型"(卡片-LaWAM、卡片-TacForeSight)是同一隐空间家族的不同用法(一个学动作、一个学动力学)。
- 局限:精细抓取偏弱——做接触密集/灵巧主线时,潜动作预训练要配高质微调。
来源编号¶
- [1][2][3] arXiv 2410.11758 全文(✅,见 详读-LAPA)。
- [4] ConLA:🔶 转述(未精读)。