V-JEPA 2：把"隐空间世界模型做规划"这条线钉在地上的锚点¶

📌 一句话省流：Meta FAIR（LeCun 等）的旗舰。两阶段——① 无动作的 JEPA 自监督预训练：在 >100 万小时互联网视频 + 1M 图像上做"隐空间掩码特征预测"(不重建像素)，训出至多 1B 参数的视频编码器；② 冻结编码器，用 不到 62 小时无标注 Droid 机器人视频 后训练一个 300M 动作条件预测器 V-JEPA2-AC，在隐空间自回归预测"下一帧的表示"。靠 image-goal + MPC 规划，把它零样本部署到两个不同实验室的 Franka 臂做抓取/放置——没在这些机器人上采过任何数据、无任务训练、无奖励。

🎬 演示：Meta 博客(内嵌 demo) · 代码 facebookresearch/vjepa2 🔬 全文精读 + 关键图 + 数字：详读-V-JEPA2 🔗 概念背景：概念-隐空间与潜动作学习（隐空间世界模型/JEPA 一支）

🧰 对我们（可用性速判）¶

用处：整条"隐空间世界模型做规划"路线的锚点与最强开源实现；"action-free 大规模预训练 + 极少交互后训练"的解耦范式可直接借。
真实性：全文已核(A)；理解侧多项 SOTA、机器人侧跨两实验室零样本，证据硬。
训练/微调资源：预训练重(1B 编码器 / 1M 小时视频，Meta 级算力)；但下游只要 <62h 无标注机器人视频 + 300M 预测器，这是最实用的点。规划单卡 RTX 4090、16s/动作。
能借多少(开源)：代码+权重全开源 → 编码器/AC 都可拿来用或微调。
可用性结论：想做隐空间世界模型/零样本 image-goal 规划，这是首选底座；缺点是重预训练已由 Meta 做掉、你主要复用。

亮点到底在哪（读全文后定位）¶

亮点在"JEPA 的哲学落地成可规划的世界模型"：JEPA 在学到的表征空间做预测、主动忽略不可预测的像素细节（草叶、树叶的精确位置）——这与像素级生成世界模型（Cosmos/SVD 类）是根本分野，也是它规划又快又稳的原因。[1]
解耦是关键工程：① 无动作预训练吃海量视频学"世界怎么变"，② 少量机器人交互只学"动作怎么接进这个隐空间" → 把最贵的"动作标注"降到 62h。[1]
零样本跨实验室：同一 AC 模型部署到两个实验室的 Franka，物体/杂乱背景各异，无需现场采数据。[1]

关键数字（全文核实 📄）¶

理解/预测：Something-Something v2 77.3 top-1（运动理解）；Epic-Kitchens-100 动作预期 39.7 R@5（SOTA）；对齐 LLM 后 8B 规模 VideoQA PerceptionTest 84.0 / TempCompass 76.9。[1]
机器人零样本（Table 2，2 实验室 ×10 trials）：Reach 100%；Grasp cup 65%/box 25%；Reach-w/obj cup 75%/box 75%；Pick-&-Place cup 80%/box 65% —— 全面超 Octo（Octo pick&place cup 15%/box 10%）。[1]
规划效率：V-JEPA2-AC 16 秒/动作（RTX 4090）；对照像素级 Cosmos 需 4 分钟/动作（一次 pick&place 要 >1 小时）。[1]

🔎 证据与可信度¶

论文：arXiv 2506.09985(2025-06)；FAIR at Meta + Mila。✅ 全文已读。
代码/权重：facebookresearch/vjepa2 ✅ 全开源。
证据等级 A：全文+多基准+机器人基线表核实，Meta 旗舰全开源。

🧱 局限（正文 §4.3）¶

对相机位置敏感：AC 预测的是表征，相机位姿变化会影响 → 又是"相机运动/位姿"这个隐空间世界模型的共性坑（呼应卡片-LaWAM 怕相机运动、卡片-VLA-JEPA 的鲁棒性诉求）。
Grasp box（需更精细夹爪张开）仍偏弱；规划靠采样式 MPC，实时性有限（16s/动作）。

💡 我的批注 / 判断（🤖）¶

与卡片-VLA-JEPA 是"JEPA 一门两用"：VLA-JEPA 用 JEPA 思想学潜动作、V-JEPA2 用 JEPA 学世界模型表征+做规划；VLA-JEPA 的 target 编码器正是冻结 V-JEPA2——即 V-JEPA2 是 VLA-JEPA 的地基。→ 两卡强绑。
"表征空间预测 vs 像素生成"的分野 + 16s vs 4min 的效率对照，是本库"隐空间为什么胜过像素"最有力的一手证据，已收进概念-隐空间与潜动作学习。
触觉？无。但"action-free 预训练 + 少量交互接动作"的解耦，对"触觉数据同样稀缺"的我们是可迁移范式（🤖 待验证）。

来源编号¶

[1] arXiv 2506.09985（全文 txt 精读 2026-07-04）· 本地 papers/V-JEPA2-SelfSupervisedVideoWorldModel-2506.09985.pdf