概念 · 隐空间与潜动作学习(Latent Action / Latent-Space Learning)¶
一张横切卡:把散在各单篇卡里的"隐空间/潜动作"拎出来对齐——它解决什么问题、怎么实现、为什么现在才火、效果到哪、有什么坑。 单篇深读见:卡片-LAPA(开山旗舰)· 卡片-villa-X(物理接地)· 卡片-VLA-JEPA(JEPA 防泄漏)· 卡片-LaWAM(decoder 当世界模型)· 卡片-Genie(游戏域起源)。
0. 先分清两个"隐空间用法"(别混)¶
"隐空间学习"在机器人里其实是同一个隐空间家族的两种用法,别当成一回事: 1. 潜动作(latent action):把帧间"发生了什么动作"压成一个隐 token,当作"伪动作标签"去预训练策略。→ 本卡主线(LAPA/villa-X/VLA-JEPA)。 2. 隐空间世界模型(latent world model):在压缩特征空间里预测"未来会变成什么样",给策略加物理前瞻。→ 见 综述-世界模型、卡片-LaWAM、触觉版 卡片-TacForeSight。
两者共用"在隐空间而非像素空间操作"这一原语,且常在同一模型里耦合(LaWAM 就是把潜动作的 decoder 复用成世界模型)。本卡聚焦①,②只在对照时带过。
1. 它到底解决什么问题¶
一句话:真机动作标签太贵,潜动作让 VLA 能吃"无动作标签的视频"(甚至人类视频)。 - VLA 要学"看图+听指令→出动作",但"动作标签"得靠人遥操作一条条采,昂贵、窄、难扩规模(见 概念-机器人数据与标注)。 - 互联网/人类视频海量、多样,但没有动作标注、且本体千差万别 → 直接用不了。 - 潜动作的赌注:与其等真机动作标签,不如从无标注视频里自监督"发现"一套潜在动作(帧间变化 token 化),先让 VLA 在海量视频上"预测潜动作"做行为克隆预训练,最后只用一小批带真机标签的数据把潜空间映射到可执行动作。→ 把"昂贵的动作标注"这一步从预训练挪到了微调,规模瓶颈被打开。
2. 核心机制:什么是"潜动作"¶
经典构件两件套(LAPO/Genie 起,LAPA 带进机器人):
- 逆动力学模型 IDM:吃一对帧 (o_t, o_{t+K}) → 吐潜动作 token z_t("这两帧之间发生了什么")。
- 前向动力学模型 FDM:吃 (o_t, z_t) → 重建未来帧 ô_{t+K}。
- 用 VQ-VAE 把 z_t 量化成离散码本(防坍缩常配 NSVQ/交叉注意)。训练完,IDM 就是个"潜动作标注器",能给任意无标注视频打伪标签。
直觉:潜动作 ≈ 一门"动作的中间语言",比像素抽象、比真机动作通用(跨本体),当"视觉语言"与"低层控制"之间的桥。
3. 三条实现路线(横切对照)¶
| 路线 | 代表 | 怎么用隐空间 | 关键改进/卖点 |
|---|---|---|---|
| A. VQ 潜动作预训练 | 卡片-LAPA、卡片-Genie、Moto、UniVLA | IDM+FDM 学离散潜动作当伪标签,两阶段:先预测潜动作、再换头映射真机动作 | 首个无需真机动作标签的 VLA 预训练;30× 省算力、能吃人类视频 |
| A+. 物理接地 | 卡片-villa-X | 同 A,但给 LAM 加一路 proprio-FDM 预测未来机器人状态/动作;策略侧 latent/robot 双专家联合扩散 | 潜动作被拉回物理动力学;比 LAPA 的"松耦合(权重初始化)"更紧 |
| B. decoder 当世界模型 | 卡片-LaWAM | 把 A 里"训完就扔的 FDM decoder"捡回来,一步前向预测隐视觉子目标去条件化动作 | 不生成像素、不迭代 → 又快(187ms)又准;隐空间世界模型 |
| C. JEPA 隐预测 | 卡片-VLA-JEPA、卡片-V-JEPA2 | 不重建像素、在表征空间预测、主动忽略不可预测像素细节 | 抗光照/背景/相机运动;V-JEPA2 是这支的锚(隐空间世界模型做规划、16s/动作 vs 像素级 4min) |
| D. 潜动作×世界模型(动作感知预训练) | 卡片-AdaWorld | 预训练就把潜动作灌进世界模型;连续潜动作(β-VAE)、可迁移可组合 | 一个动作示范→零样本迁移;100 样本高效适配新环境 |
| E. 统一 UWM(大一统) | 卡片-Motus | 一个模型(MoT+UniDiffuser)统一 VLA/WM/IDM/VGM/联合预测 5 范式 | 复用预训练 VLM+VGM 先验;光流潜动作跨本体;但骨干重 |
| > 共同原语:在隐空间而非像素空间学"变化/预测"。差异在于——学的是"动作"(A/A+/D)还是"未来状态"(B/C/E)、离散还是连续、专精还是统一(E)、生成式(重建像素)还是非生成式(JEPA 只预测表征)。 | |||
| > ⚠️ 一个尚无定论的开放选择——"潜动作到底怎么抽":VQ 离散(LAPA/Genie) vs 连续 β-VAE(AdaWorld) vs 光流(Motus) vs JEPA 表征(VLA-JEPA)。AdaWorld 实验说"连续 VAE 潜动作 > 光流条件 > 离散",而 Motus 恰恰押光流 → 两篇结论相左,这是本条线当前活跃的方法分歧,别当已定论。 | |||
| > ⚠️ 生成式 vs 非生成式(JEPA)之争:AdaWorld/Motus 的世界模型仍是生成式(扩散/重建像素);V-JEPA2 是非生成式(只预测表征),规划快一个数量级(16s vs 4min)。产业界这条路线之争同样明显(见 §8 末产业地图链接:李飞飞 World Labs 生成式 vs LeCun JEPA)。 |
4. "为什么以前没有、现在为何有效?"(⚠️ 史观断言,多为推断/待验证)¶
这一节回答用户的核心追问,但因果/时序判断天然低可信,逐条标档,别当已核事实(治 ai-eval E3)。 - 🔶 依赖的基础设施 2023 后才凑齐(合理推断):① 强大预训练 VLM 骨干(SigLIP/Qwen-VL/PaliGemma)提供语义底座;② 大规模视频/机器人数据(Open-X、Something-Something、Ego4D、Droid);③ VQ-VAE / flow-matching / JEPA 这套表征+生成工具链成熟;④ 算力。缺任一条,潜动作预训练都跑不动或没数据喂。— 从各论文的骨干/数据依赖倒推,非某篇明说。 - 🔶 是"真机数据规模墙"逼出来的(合理推断):VLA 一旦想 scale,就撞上"动作标签靠遥操作、贵且窄"这堵墙;潜动作是绕墙的自然解法。— 多篇论文的 motivation 一致指向此,属共识级推断。 - 🟡 "以前完全没有"并不准确(待验证/需澄清):潜动作思想在游戏域更早(ILPO 2019、LAPO/Genie 2023-24),机器人域 2024 才被 LAPA 等接过来。所以不是"凭空出现",是跨域迁移 + 上述基建成熟的合流。说"最近才有"要限定"在机器人 VLA 语境下、2024 起才规模化"。 - 🟡 "效果为什么这么好"要打折看(待验证):多数亮眼数字来自仿真(SIMPLER/LIBERO)或受控真机;VLA-JEPA 自己就发现"人类视频主要提鲁棒性、不带来新动作能力"——即"从视频学"的收益可能被叙事高估。跨方法横比也受数据配方/评测口径影响。→ 别把"SOTA"当"通用解决"。
5. 效果能到什么程度(📄 各卡已核数字)¶
- 省算力/省标注:LAPA 相比 OpenVLA ~30× 省预训练算力,且用人类视频预训练也能超有动作标签的基线。卡片-LAPA
- 跨本体迁移:villa-X 的潜动作专家能对预训练没见过的机械臂(Realman)零样本生成潜规划;对预训练未见的 12-DoF 灵巧手则靠微调迁移(非零样本控制)。SIMPLER Google 77.7%。卡片-villa-X
- 鲁棒性:VLA-JEPA 在 LIBERO-Plus 扰动压测均值 79.5%,光照/背景/布局等维度大幅领先。卡片-VLA-JEPA
- 效率(隐世界模型侧):LaWAM 一步隐子目标,187ms/动作块,比像素级世界模型快至 24×。卡片-LaWAM
6. 负面与坑(⚠️ 用户特别问的——这是本卡最有用的一节)¶
潜动作不是免费午餐。VLA-JEPA 系统归纳了四大失效模式(📄 一手来源),加上各卡的局限: 1. 像素偏置:潜动作目标常隐性锚在"像素变化"上 → 把光照/纹理/背景/视角这些高方差低控制的东西当成了"动作"。 2. 噪声运动:真实/人类视频里相机自运动等噪声运动可能强过"交互引起的状态变化",潜动作退化成"帧差编码器"。← LaWAM 的"怕相机运动、不适合移动/人形"正是此坑的实证。 3. 信息泄漏捷径:把当前帧+未来帧一起喂同一模块,潜动作会直接抄未来帧、变得语义空洞(能降 loss 但对控制无意义)。VLA-JEPA 的 leakage-free 设计就是专治这条。 4. 多阶段脆弱:三段式(表征→潜动作→策略)流水线工程复杂、阶段间不一致、难干净训练与评测。 5. 精细动作弱:LAPA/villa-X 都自陈抓取等精细/灵巧动作偏弱,潜动作空间对亚像素运动分辨率不足。 6. 可解释性差:潜动作是隐 token,语义不透明、难调试、难保证安全边界。 7. 评测局限:多在操作任务/仿真,导航/驾驶/长程/接触密集覆盖少;跨方法比受数据配方影响大。
7. 训练 / 复现成本(估)¶
- 数据:预训练要大规模视频(Open-X 百万级、Something-Something V2 22 万人类视频、Droid 7.6 万等);微调只需小标注集(每任务 ~75–150 条)。
- 算力:预训练多卡 A100/H100(VLA-JEPA 报 8×A100);LAPA 卖点之一就是比 OpenVLA 省 ~30× 预训练算力。
- 代码:LAPA/villa-X/VLA-JEPA 均已开源(含部分权重)→ 复现门槛相对低,是这条线的一大优点。
- 本体状态:villa-X 的物理接地需要 proprio(机器人本体状态);纯人类视频则退化(无 proprio 项)。
8. 对我们触觉×VLA 的意义¶
- 数据底座策略:潜动作是"用无标注视频撑起数据金字塔底层"的关键手段(卡片-GR00T-N1 的金字塔底就是 LAPA 式潜动作)→ 直接关联我们"数据从哪来"的路线(概念-机器人数据与标注)。
- 一个技术观察(🤖,非结论):villa-X 用 proprio-FDM 拿本体状态给潜动作做"物理接地"——本体状态是一路结构化信号;触觉/接触也是结构化信号,机制上可类比。这只是读文后的类比,不构成方向判断。
- 触觉侧的隐世界模型库内已有 卡片-TacForeSight(对照 TacForeSight×LaWAM-对照)。
- 第 6 节的坑对触觉同样成立:触觉信号噪声大,"像素偏置/信息泄漏"在触觉语境下有等价物 → 任何触觉潜动作工作都得正视 VLA-JEPA 的 leakage-free 问题。
- 对叙事的降温(📄 依据 VLA-JEPA §4.4):VLA-JEPA 实证"人类视频主要提鲁棒性、不带来新动作能力" → 精细/接触密集的灵巧操作,视频替代不了真机数据。这条对"用视频省真机标注"的整套叙事是重要约束。
9. 库内相关卡索引¶
- 潜动作主线:卡片-LAPA · 卡片-villa-X · 卡片-VLA-JEPA · 卡片-Genie · 卡片-AdaWorld(连续潜动作×世界模型)· 卡片-Motus(统一 UWM)
- 隐世界模型:卡片-V-JEPA2(JEPA 锚点/做规划)· 卡片-LaWAM · 综述-世界模型 · 卡片-TacForeSight · 卡片-VT-WM · 卡片-OmniVTA
- 上游背景:概念-模型架构基础(§3 隐空间世界模型)· 综述-互联网视频学机器人 · 概念-机器人数据与标注
- 产业侧:产业地图-世界模型与隐空间路线(谁在投这条线)· 追踪-无界动力(隐空间世界模型 MWA™)
⚠️ 本卡是横切综述(🤖 整理):数字以各单篇卡的 📄 来源为准;第 4 节史观断言多为 🔶推断/🟡待验证,正式对外引用前须回到原论文核。