跳转至

type: 详读(中文全文摘要) domain: 大脑·模型 对应卡片: 卡片-MolmoAct arxiv: "2508.07917" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30


详读 · MolmoAct:在"空间"里推理的动作推理模型(AI2,2025-08)

一、问题与核心主张

  • 问题:多数 VLA 把"感知+指令→控制"直接映射,缺连接感知与动作的中间表征,泛化/可解释差。
  • 主张:提出动作推理模型(ARM)——不在"语言"里推理,而在"空间"里推理,三段产出可解释的空间化中间量:深度图 → 轨迹草图 → 动作。

二、方法(三段空间推理)

  1. 深度感知 token:VQVAE 码本(128 token)把 320² 深度图编成 100 token,自回归预测 → 3D 空间理解。
  2. 视觉推理轨迹:生成 2D 末端轨迹折线(1–5 点,归一化到 0–255 图像坐标)——可编辑的"图像空间计划"。
  3. 动作 token:256 bin/自由度,用 BPE 符号相似初始化(保序优于随机)。
  4. 因式分解:深度→条件化轨迹;深度+轨迹→条件化动作。
  5. 可操控(steerable):用户在画面上手画轨迹即可闭环引导,75% vs 语言 42%(取碗任务)。

三、数据

  • 预训练 26.3M:OXE 子集(RT-1/Bridge/BC-Z ~10.5M) + 辅助(深度~1.5M/轨迹~1.5M/轨迹条件~10.5M) + 网络 2M。
  • 中训:MolmoAct Dataset(首发) 10,689 条单臂 Franka 轨迹(家庭 7,730/桌面 2,959,93 任务)。

四、关键结果

  • SimplerEnv(Google Robot):70.5% 零样本,超 π0/π0-FAST/GR00T N1.5
  • LIBERO:86.6%(+6.3% over ThinkAct)。
  • 真机:单臂 +10%、双臂 +22.7%(任务进度 vs π0-FAST);OOD +23.3%;指令跟随 Elo 最高(+109 vs SpatialVLA)。
  • 效率:预训练 9,216 GPU 小时(256×H100),比 GR00T N1.5 的 5 万小时快 5×+

五、消融

  • 中训(MolmoAct Dataset) +5.5%;BPE 动作初始化加速收敛;视觉轨迹操控 75% 比语言操控高 33pp

六、局限

  • 依赖高质遥操演示;深度受 VQVAE 码本分辨率限;主要桌面/移动操作,人形未测;轨迹操控需 UI、全自主可扩展性未知。

七、开源 / 出处

  • arXiv 2508.07917;AI2 + UW(Ranjay Krishna/Dieter Fox/Ali Farhadi);权重+数据+代码全开源(HuggingFace)。

八、对我们(精读后判断,🤖)

  • "在空间里推理"这条路最值得我们注意:深度→轨迹→动作的可解释中间量,和 卡片-ReKep(关键点约束)、卡片-ECoT(语言推理)、卡片-TraceVLA(视觉轨迹)是同一"加中间表征"家族的不同实现,MolmoAct 是其中全开源 + 效率高(5× 省算力)的,最适合上手。
  • 触觉钩子:能否在它的"空间推理"里再加一层"接触/力"的空间化中间量?值得试。
  • 全开源 + 比 GR00T 省 5× 算力 → 若要复刻"动作推理"范式,这是首选底座。