type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-MolmoAct arxiv: "2508.07917" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30
详读 · MolmoAct:在"空间"里推理的动作推理模型(AI2,2025-08)¶
一、问题与核心主张¶
- 问题:多数 VLA 把"感知+指令→控制"直接映射,缺连接感知与动作的中间表征,泛化/可解释差。
- 主张:提出动作推理模型(ARM)——不在"语言"里推理,而在"空间"里推理,三段产出可解释的空间化中间量:深度图 → 轨迹草图 → 动作。
二、方法(三段空间推理)¶
- 深度感知 token:VQVAE 码本(128 token)把 320² 深度图编成 100 token,自回归预测 → 3D 空间理解。
- 视觉推理轨迹:生成 2D 末端轨迹折线(1–5 点,归一化到 0–255 图像坐标)——可编辑的"图像空间计划"。
- 动作 token:256 bin/自由度,用 BPE 符号相似初始化(保序优于随机)。
- 因式分解:深度→条件化轨迹;深度+轨迹→条件化动作。
- 可操控(steerable):用户在画面上手画轨迹即可闭环引导,75% vs 语言 42%(取碗任务)。
三、数据¶
- 预训练 26.3M:OXE 子集(RT-1/Bridge/BC-Z ~10.5M) + 辅助(深度~1.5M/轨迹~1.5M/轨迹条件~10.5M) + 网络 2M。
- 中训:MolmoAct Dataset(首发) 10,689 条单臂 Franka 轨迹(家庭 7,730/桌面 2,959,93 任务)。
四、关键结果¶
- SimplerEnv(Google Robot):70.5% 零样本,超 π0/π0-FAST/GR00T N1.5。
- LIBERO:86.6%(+6.3% over ThinkAct)。
- 真机:单臂 +10%、双臂 +22.7%(任务进度 vs π0-FAST);OOD +23.3%;指令跟随 Elo 最高(+109 vs SpatialVLA)。
- 效率:预训练 9,216 GPU 小时(256×H100),比 GR00T N1.5 的 5 万小时快 5×+。
五、消融¶
- 中训(MolmoAct Dataset) +5.5%;BPE 动作初始化加速收敛;视觉轨迹操控 75% 比语言操控高 33pp。
六、局限¶
- 依赖高质遥操演示;深度受 VQVAE 码本分辨率限;主要桌面/移动操作,人形未测;轨迹操控需 UI、全自主可扩展性未知。
七、开源 / 出处¶
- arXiv 2508.07917;AI2 + UW(Ranjay Krishna/Dieter Fox/Ali Farhadi);权重+数据+代码全开源(HuggingFace)。
八、对我们(精读后判断,🤖)¶
- "在空间里推理"这条路最值得我们注意:深度→轨迹→动作的可解释中间量,和 卡片-ReKep(关键点约束)、卡片-ECoT(语言推理)、卡片-TraceVLA(视觉轨迹)是同一"加中间表征"家族的不同实现,MolmoAct 是其中全开源 + 效率高(5× 省算力)的,最适合上手。
- 触觉钩子:能否在它的"空间推理"里再加一层"接触/力"的空间化中间量?值得试。
- 全开源 + 比 GR00T 省 5× 算力 → 若要复刻"动作推理"范式,这是首选底座。