跳转至

机器人知识库

详读 LAPA

type: 详读（中文全文摘要） domain: 大脑·学习方法对应卡片: 卡片-LAPA arxiv: "2410.11758" 来源: 全文精读(arXiv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · LAPA：从"无动作标签的视频"预训练 VLA（2024-10）¶

一、问题与核心主张¶

问题：VLA 预训练要真机动作标签(遥操)，规模受限；互联网视频海量但无动作标注、且本体不同。
主张：从无标注视频里发现"离散潜动作"(把帧间变化 token 化)，先让 VLA 预测潜动作，再用少量标注数据把潜动作映射成可执行命令。

二、方法（三段）¶

潜动作量化：VQ-VAE 编解码器从连续帧学离散潜动作 token(编码器吃当前+未来帧，解码器据当前帧+潜动作重建未来帧)；用 NSVQ + 交叉注意防坍缩。
潜动作预训练：预训练 VLM(7B LWM-Chat)据观测+语言预测潜动作 token(行为克隆)；冻视觉编码器、解冻语言模型。
动作微调：换上新动作头，在小标注集(每任务 150 条)把潜空间映到连续 delta 末端动作。

三、数据¶

BridgeV2 6 万(WidowX) + Open-X 97 万(多本体) + Something-Something V2 22 万人类视频(极端本体差)。

四、关键结果¶

vs OpenVLA：LAPA(Open-X) 真机桌面 50.1% vs 43.9%，且预训练算力 ~30× 更省(272 H100h vs 21,500 A100h)。
跨本体：用人类视频预训练也超有动作标签的基线。
Language Table 仿真：62.0%(vs Vpt 44.0，ActionVLA 上界 77.0)。
人类视频迁移：LAPA(人类视频) > OpenVLA(BridgeV2) → 网络规模潜力。

五、消融¶

模型/数据规模越大越好；潜动作词表/长度的最优值随任务复杂度变；窗口大小 H∈{1,3,5} 鲁棒，极端帧差退化。

六、局限（作者自陈）¶

精细动作(抓取)偏弱，或需更大潜动作空间；推理延迟(与其它 VLA 同);仅评操作、未探导航/驾驶。

七、开源 / 出处¶

arXiv 2410.11758；KAIST/UW/MSR/NVIDIA/AI2；承诺开源 checkpoint+代码(latentactionpretraining.github.io)。

八、对我们（精读后判断，🤖）¶

"省真机标注"路线的代表作：潜动作让 VLA 能吃"无动作视频"(甚至人类视频)，30× 省算力——直接指导我们"数据底座"策略(参见概念-机器人数据与标注)。
与卡片-GR00T-N1 强绑：GR00T 的数据金字塔底层正是用 LAPA 式潜动作从人类视频学。"潜动作"也与本库"隐空间世界模型"(卡片-LaWAM)是同一隐空间家族的不同用法(一个学动作、一个学动力学)。
局限要记：精细抓取偏弱——做接触密集/灵巧主线时，潜动作预训练要配高质微调。