type: 详读（中文全文摘要） domain: 大脑·学习方法对应卡片: 卡片-V-JEPA2 arxiv: "2506.09985" 来源: 全文精读(arXiv txt 正文 v1, 2025-06)，🤖Claude 摘译，关键数字📄来自正文表格 date: 2026-07-04

详读 · V-JEPA 2：自监督视频→隐空间世界模型→零样本机器人规划（2025-06，Meta FAIR）¶

一、问题与核心主张¶

目标：让 AI 主要靠观察学会理解世界、预测、并在新情境规划（LeCun 的世界模型主张）。
主张：用 JEPA(联合嵌入预测架构)——在学到的表征空间做预测，而非像素。这样能① 吃互联网级"只有状态、没有动作"的视频学世界动力学；② 只对"可预测的方面"(如运动物体轨迹)建模、主动忽略不可预测的像素细节(草叶/树叶位置)，这正是它比生成式世界模型规划更快更稳的原因。

动作无关预训练 V-JEPA 2：在 >100 万小时互联网视频 + 1M 图像上做掩码去噪特征预测(预测被掩码片段在表征空间的特征)，编码器至多 1B 参数。
动作条件后训练 V-JEPA 2-AC：冻结编码器，加一个 300M 参数、块因果注意力的预测器，自回归预测"下一帧的表示"(条件在动作+历史状态)。仅用 <62 小时无标注 Droid 机器人视频训练。
规划(推理)：用 image-goal 指定目标 → 把目标帧编码进隐空间当能量函数 → 交叉熵法(CEM)采样优化动作序列(MPC 闭环)。pick&place 用两个子目标(抓起/靠近)分段切换。

理解/预测(冻结编码器 probe / 对齐 LLM)：Something-Something v2 77.3 top-1(运动理解)；Epic-Kitchens-100 动作预期 39.7 R@5(超专用模型，SOTA)；对齐 LLM 后 8B 规模 VideoQA PerceptionTest 84.0 / TempCompass 76.9。
机器人零样本(Table 2，两实验室 Franka + RobotiQ，各 10 trials)：
Reach 100%；Grasp cup 65%/box 25%；Reach-w/obj cup 75%/box 75%；Pick-&-Place cup 80%/box 65%。
对照 Octo：Grasp cup 15%/box 0%、Pick&Place cup 15%/box 10% → V-JEPA2-AC 全面领先。
规划效率：V-JEPA2-AC 16 秒/动作(单卡 RTX 4090)；像素级 Cosmos 需 4 分钟/动作(一次 pick&place >1 小时) → 隐空间规划的效率碾压。

是卡片-VLA-JEPA 的地基：VLA-JEPA 的 target 编码器就是冻结的 V-JEPA2。V-JEPA2 用 JEPA 学世界模型+规划，VLA-JEPA 用 JEPA 学潜动作——"JEPA 一门两用"。
"表征空间预测 vs 像素生成"的分野 + 16s vs 4min 效率对照，是本库"隐空间为何胜像素"最硬的一手证据(收进概念-隐空间与潜动作学习路线 C)。
"action-free 大规模预训练 + 少量交互接动作"的解耦，对"触觉数据同样稀缺"的我们是可迁移范式(🤖 待验证)。