跳转至

type: 详读(中文全文摘要) domain: 大脑·学习方法 对应卡片: 卡片-LAPA arxiv: "2410.11758" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30


详读 · LAPA:从"无动作标签的视频"预训练 VLA(2024-10)

一、问题与核心主张

  • 问题:VLA 预训练要真机动作标签(遥操),规模受限;互联网视频海量但无动作标注、且本体不同。
  • 主张:从无标注视频里发现"离散潜动作"(把帧间变化 token 化),先让 VLA 预测潜动作,再用少量标注数据把潜动作映射成可执行命令。

二、方法(三段)

  1. 潜动作量化:VQ-VAE 编解码器从连续帧学离散潜动作 token(编码器吃当前+未来帧,解码器据当前帧+潜动作重建未来帧);用 NSVQ + 交叉注意防坍缩。
  2. 潜动作预训练:预训练 VLM(7B LWM-Chat)据观测+语言预测潜动作 token(行为克隆);冻视觉编码器、解冻语言模型。
  3. 动作微调:换上新动作头,在小标注集(每任务 150 条)把潜空间映到连续 delta 末端动作。

三、数据

  • BridgeV2 6 万(WidowX) + Open-X 97 万(多本体) + Something-Something V2 22 万人类视频(极端本体差)。

四、关键结果

  • vs OpenVLA:LAPA(Open-X) 真机桌面 50.1% vs 43.9%,且预训练算力 ~30× 更省(272 H100h vs 21,500 A100h)。
  • 跨本体:用人类视频预训练也超有动作标签的基线。
  • Language Table 仿真:62.0%(vs Vpt 44.0,ActionVLA 上界 77.0)。
  • 人类视频迁移:LAPA(人类视频) > OpenVLA(BridgeV2) → 网络规模潜力。

五、消融

  • 模型/数据规模越大越好;潜动作词表/长度的最优值随任务复杂度变;窗口大小 H∈{1,3,5} 鲁棒,极端帧差退化。

六、局限(作者自陈)

  • 精细动作(抓取)偏弱,或需更大潜动作空间;推理延迟(与其它 VLA 同);仅评操作、未探导航/驾驶。

七、开源 / 出处

  • arXiv 2410.11758;KAIST/UW/MSR/NVIDIA/AI2;承诺开源 checkpoint+代码(latentactionpretraining.github.io)。

八、对我们(精读后判断,🤖)

  • "省真机标注"路线的代表作:潜动作让 VLA 能吃"无动作视频"(甚至人类视频),30× 省算力——直接指导我们"数据底座"策略(参见 概念-机器人数据与标注)。
  • 卡片-GR00T-N1 强绑:GR00T 的数据金字塔底层正是用 LAPA 式潜动作从人类视频学。"潜动作"也与本库"隐空间世界模型"(卡片-LaWAM)是同一隐空间家族的不同用法(一个学动作、一个学动力学)。
  • 局限要记:精细抓取偏弱——做接触密集/灵巧主线时,潜动作预训练要配高质微调。