type: 详读(中文全文摘要) domain: 大脑·学习方法 对应卡片: 卡片-LAPA arxiv: "2410.11758" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30
详读 · LAPA:从"无动作标签的视频"预训练 VLA(2024-10)¶
一、问题与核心主张¶
- 问题:VLA 预训练要真机动作标签(遥操),规模受限;互联网视频海量但无动作标注、且本体不同。
- 主张:从无标注视频里发现"离散潜动作"(把帧间变化 token 化),先让 VLA 预测潜动作,再用少量标注数据把潜动作映射成可执行命令。
二、方法(三段)¶
- 潜动作量化:VQ-VAE 编解码器从连续帧学离散潜动作 token(编码器吃当前+未来帧,解码器据当前帧+潜动作重建未来帧);用 NSVQ + 交叉注意防坍缩。
- 潜动作预训练:预训练 VLM(7B LWM-Chat)据观测+语言预测潜动作 token(行为克隆);冻视觉编码器、解冻语言模型。
- 动作微调:换上新动作头,在小标注集(每任务 150 条)把潜空间映到连续 delta 末端动作。
三、数据¶
- BridgeV2 6 万(WidowX) + Open-X 97 万(多本体) + Something-Something V2 22 万人类视频(极端本体差)。
四、关键结果¶
- vs OpenVLA:LAPA(Open-X) 真机桌面 50.1% vs 43.9%,且预训练算力 ~30× 更省(272 H100h vs 21,500 A100h)。
- 跨本体:用人类视频预训练也超有动作标签的基线。
- Language Table 仿真:62.0%(vs Vpt 44.0,ActionVLA 上界 77.0)。
- 人类视频迁移:LAPA(人类视频) > OpenVLA(BridgeV2) → 网络规模潜力。
五、消融¶
- 模型/数据规模越大越好;潜动作词表/长度的最优值随任务复杂度变;窗口大小 H∈{1,3,5} 鲁棒,极端帧差退化。
六、局限(作者自陈)¶
- 精细动作(抓取)偏弱,或需更大潜动作空间;推理延迟(与其它 VLA 同);仅评操作、未探导航/驾驶。
七、开源 / 出处¶
- arXiv 2410.11758;KAIST/UW/MSR/NVIDIA/AI2;承诺开源 checkpoint+代码(latentactionpretraining.github.io)。
八、对我们(精读后判断,🤖)¶
- "省真机标注"路线的代表作:潜动作让 VLA 能吃"无动作视频"(甚至人类视频),30× 省算力——直接指导我们"数据底座"策略(参见 概念-机器人数据与标注)。
- 与 卡片-GR00T-N1 强绑:GR00T 的数据金字塔底层正是用 LAPA 式潜动作从人类视频学。"潜动作"也与本库"隐空间世界模型"(卡片-LaWAM)是同一隐空间家族的不同用法(一个学动作、一个学动力学)。
- 局限要记:精细抓取偏弱——做接触密集/灵巧主线时,潜动作预训练要配高质微调。