跳转至

机器人知识库

VLA-JEPA：用 JEPA 重做潜动作预训练——防泄漏、抗噪声、隐空间对齐

VLA-JEPA：潜动作学"错了东西"？用 JEPA 把它掰回"动作相关的状态转移"¶

📌 一句话省流：一篇"诊断 + 药方"论文。诊断：现有"从视频学潜动作"的目标常常学错东西——它们隐性地锚在像素变化上，于是把光照/背景/相机运动这些"高方差低控制"的信号当成了"动作"，还容易让"未来帧信息泄漏"进学习器、使潜动作退化成"抄未来帧"的捷径。药方：改用 JEPA(联合嵌入预测) 思路——不重建像素、只在隐空间对齐未来状态，且future frame 只当监督目标、绝不喂进学习器(leakage-free)，从而学到"动作相关的状态转移语义"，对相机运动/背景变化天然鲁棒，还把多阶段流水线简化成"预训练 + 动作头微调"。

🎬 演示：项目页 · 代码 ginwind/VLA-JEPA 🔬 全文精读 + 关键图 + 数字：详读-VLA-JEPA 🔗 概念背景先读：概念-隐空间与潜动作学习

🧰 对我们（可用性速判）¶

用处：① 它对"潜动作四大坑"的诊断本身就是极好的批判性框架(见下)；② leakage-free + JEPA 隐对齐的鲁棒性路线可借。
真实性：核心数字全文已核(B)；含 LIBERO-Plus 这种专门压力测试鲁棒性的基准。
训练/微调资源：8×A100；SSv2 220K 人类视频 + Droid 76K 机器人数据预训练；真机仅 100 条演示微调。骨干 Qwen3-VL + SigLIP-2 + 冻结 V-JEPA2 编码器。
能借多少(开源)：代码+权重已开源(ginwind/VLA-JEPA, HF 有权重) → 可直接上手。
可用性结论：想要"抗视觉扰动/跨环境鲁棒"的潜动作预训练，这是当前最对症的一条；但它文本指令跟随偏弱(见局限)。

亮点到底在哪（读全文后定位）¶

亮点一半在"诊断"：系统归纳潜动作预训练的四大失效模式——(1)像素级目标把表示偏向"外观"而非"动作"；(2)真实/人类视频里相机运动等噪声运动被当成动作；(3)把当前帧+未来帧一起喂同一模块→"信息泄漏"，潜动作退化成抄未来帧的捷径；(4)三段式流水线复杂脆弱。[1] 这四条是本库"潜动作的坑"最完整的一手来源。
亮点另一半在"leakage-free 设计"：target 用冻结的 V-JEPA2 从未来片段产出隐目标；student 路径只看当前观测，未来信息只做监督、不做输入 → 从结构上堵死捷径。[1]
注意力可视化坐实诊断：LAPA 的潜动作注意力散在无关桌面物体上(泄漏证据)、UniVLA 过度语义化，VLA-JEPA 才聚焦到"机械臂/手/被操作物"。[1]

关键数字（全文核实 📄）¶

LIBERO：均值 97.2%(SOTA)，且用比 π0.5/OpenVLA-OFT 更少的数据。[1]
LIBERO-Plus(鲁棒性压测)：均值 79.5%，在 Camera/Robot/Language/Light/Background/Layout 等 7 类扰动里赢 5 类，Light 95.6、Background 93.6 —— 鲁棒性是它最硬的卖点。[1]
SimplerEnv：Google robot 均值 65.2、WidowX 57.3；且训练数据不到 villa-X 的 1% 仍有竞争力。[1]
消融：去掉人类视频预训练在 LIBERO/SimplerEnv 上掉幅不大，但在 LIBERO-Plus(鲁棒性)掉幅显著 → 人类视频主要增强"已有技能的鲁棒性/稳定性"(如失败后重抓)，而非带来新动作能力。这是个反直觉且重要的发现。[1]

🔎 证据与可信度¶

论文：arXiv 2602.10098 v2(2026-02，ECCV 2026)；中科大 + 中关村学院 + 上交/清华等。✅ 全文已读。
代码/权重：github.com/ginwind/VLA-JEPA + HF ✅ 已开源。
证据等级 B（偏上）：全文+多基准数字+基线表核实；扣分因未亲测复现。

🧱 局限（正文 §4.4，对我们关键）¶

文本指令细粒度推理弱：真机中因"对文本指令推理不足"会去抓不符合指令的物体；follow-instruction 泛化不如 π0.5。
但轨迹更稳：反过来它很少违反机械臂安全边界(π0.5 会因位置控制越界而失败) → 稳但可能抓错。
隐空间语义仍不直接可读(虽然注意力更聚焦，但潜动作本身不可解释)。

💡 我的批注 / 判断（🤖）¶

VLA-JEPA 与卡片-LaWAM 是"隐世界模型"的两种味道：LaWAM 复用 LAM 的 decoder 做一步隐子目标；VLA-JEPA 用 JEPA/V-JEPA2 做leakage-free 隐对齐。都在"隐空间预测未来"而非像素，殊途同归。
对触觉×VLA 最有价值的是它的"四大坑"清单：我们若做"触觉潜动作/触觉隐世界模型"，这四条(尤其像素偏置、噪声运动、信息泄漏)几乎逐条都要重打一遍——触觉信号噪声大、泄漏风险同样存在。→ 已把这四条收进概念-隐空间与潜动作学习的"坑"一节。
"人类视频主要提鲁棒性、不给新动作"这一发现，对"用人类视频省真机标注"的整套叙事是个降温：视频不是万能替代品，精细动作仍要真机数据。(🤖 我的解读，需与更多论文交叉验证)

来源编号¶

[1] arXiv 2602.10098（全文 txt 精读 2026-07-04）· 本地 papers/VLA-JEPA-LatentWorldModel-2602.10098.pdf