跳转至

机器人知识库

LAPA —— 从无标签视频学"潜动作"，免真机动作标注预训练 VLA

LAPA：从"无动作标签的视频"学潜动作，预训练 VLA¶

📅 2024-10 · 🏛 KAIST/UW/MSR/NVIDIA/Ai2 · 🏷 学习方法·潜动作预训练 📌 一句话省流：机器人最贵的是"动作标注"。LAPA 用 VQ-VAE 从无标注视频里自己发明一套"潜动作"(描述帧间怎么变)，让大模型先学预测潜动作，再用很少真机数据把潜动作翻译成真动作——不用大规模动作标注也能预训练 VLA，连人类视频都能用。 ≈ 打比方：不教机器人"具体怎么动"，先让它看视频自己总结"动作的语法"，再学几句"方言"对接真机。 🔬 详读：详读-LAPA 🎬 项目页

🧰 对我们（可用性速判）¶

对我们的用处："省真机标注"路线的代表作——直接绕开最贵的动作标注，从海量(甚至人类)视频学，30× 省算力。直接指导我们"数据底座"策略(参见概念-机器人数据与标注)。
真实性：✅ 全文精读 + ICLR 2025 + 有 ConLA 后续改进。
训练/微调资源：预训练 272 H100h(比 OpenVLA 21,500 A100h 省 ~30×)；下游每任务仅 150 条。
能借多少(开源)：承诺开源 checkpoint + 代码(项目页)。
可用性结论：思路直接可借 / 待权重放出可用。
🔬 详读（全文）：详读-LAPA

亮点（全文精读后定位）¶

潜动作量化：VQ-VAE(NSVQ + 交叉注意防坍缩)从连续帧学离散潜动作 token，无需动作标签。
三段：潜动作量化 → VLM(7B)预测潜动作(BC) → 小标注集换动作头微调。
人类视频也能用：用 Something-Something V2 人类视频预训练，竟超有动作标签的 OpenVLA(BridgeV2)。
30× 省算力：272 H100h vs OpenVLA 21,500 A100h。

关键数字（每条带来源 [n]）¶

[1] LAPA(Open-X) 真机桌面 50.1% vs OpenVLA 43.9%，算力 ~30× 更省(272 H100h vs 21,500 A100h)。✅📄
[2] Language Table 仿真 62.0%(vs Vpt 44.0，ActionVLA 上界 77.0)。✅📄
[3] 数据：BridgeV2 6 万 + Open-X 97 万 + Something-Something V2 22 万人类视频；下游每任务 150 条。✅📄
[4] 🔶 后续 ConLA(2602.00557) SimplerEnv 超 LAPA +12.5%（转述，未精读）。

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2410.11758，ICLR 2025（✅ 全文精读）。
代码/权重：承诺开源(项目页)。
证据等级：A → 权重：中(偏上)。

🧪 复现条件与成本（暂不亲做，只估）¶

预训练：272 H100h(相对省)；下游每任务 150 条小数据。
侧证判价值：ICLR ✅ / 30× 省算力 ✅ / 人类视频迁移实证 ✅。

💡 我的批注 / 判断（🤖，待人复核）¶

与卡片-GR00T-N1 强绑：GR00T 数据金字塔底层正用 LAPA 式潜动作从人类视频学——"省真机数据"的标杆。
"潜动作"与本库"隐空间世界模型"(卡片-LaWAM、卡片-TacForeSight)是同一隐空间家族的不同用法(一个学动作、一个学动力学)。
局限：精细抓取偏弱——做接触密集/灵巧主线时，潜动作预训练要配高质微调。

来源编号¶

[1][2][3] arXiv 2410.11758 全文（✅，见详读-LAPA）。
[4] ConLA：🔶 转述(未精读)。