跳转至

机器人知识库

详读 MolmoAct

type: 详读（中文全文摘要） domain: 大脑·模型对应卡片: 卡片-MolmoAct arxiv: "2508.07917" 来源: 全文精读(arXiv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · MolmoAct：在"空间"里推理的动作推理模型（AI2，2025-08）¶

一、问题与核心主张¶

问题：多数 VLA 把"感知+指令→控制"直接映射，缺连接感知与动作的中间表征，泛化/可解释差。
主张：提出动作推理模型(ARM)——不在"语言"里推理，而在"空间"里推理，三段产出可解释的空间化中间量：深度图 → 轨迹草图 → 动作。

二、方法（三段空间推理）¶

深度感知 token：VQVAE 码本(128 token)把 320² 深度图编成 100 token，自回归预测 → 3D 空间理解。
视觉推理轨迹：生成 2D 末端轨迹折线(1–5 点，归一化到 0–255 图像坐标)——可编辑的"图像空间计划"。
动作 token：256 bin/自由度，用 BPE 符号相似初始化(保序优于随机)。
因式分解：深度→条件化轨迹；深度+轨迹→条件化动作。
可操控(steerable)：用户在画面上手画轨迹即可闭环引导，75% vs 语言 42%(取碗任务)。

三、数据¶

预训练 26.3M：OXE 子集(RT-1/Bridge/BC-Z ~10.5M) + 辅助(深度~1.5M/轨迹~1.5M/轨迹条件~10.5M) + 网络 2M。
中训：MolmoAct Dataset(首发) 10,689 条单臂 Franka 轨迹(家庭 7,730/桌面 2,959，93 任务)。

四、关键结果¶

SimplerEnv(Google Robot)：70.5% 零样本，超 π0/π0-FAST/GR00T N1.5。
LIBERO：86.6%(+6.3% over ThinkAct)。
真机：单臂 +10%、双臂 +22.7%(任务进度 vs π0-FAST)；OOD +23.3%；指令跟随 Elo 最高(+109 vs SpatialVLA)。
效率：预训练 9,216 GPU 小时(256×H100)，比 GR00T N1.5 的 5 万小时快 5×+。

五、消融¶

中训(MolmoAct Dataset) +5.5%；BPE 动作初始化加速收敛；视觉轨迹操控 75% 比语言操控高 33pp。

六、局限¶

依赖高质遥操演示；深度受 VQVAE 码本分辨率限；主要桌面/移动操作，人形未测；轨迹操控需 UI、全自主可扩展性未知。

七、开源 / 出处¶

arXiv 2508.07917；AI2 + UW(Ranjay Krishna/Dieter Fox/Ali Farhadi)；权重+数据+代码全开源(HuggingFace)。

八、对我们（精读后判断，🤖）¶

"在空间里推理"这条路最值得我们注意：深度→轨迹→动作的可解释中间量，和卡片-ReKep(关键点约束)、卡片-ECoT(语言推理)、卡片-TraceVLA(视觉轨迹)是同一"加中间表征"家族的不同实现，MolmoAct 是其中全开源 + 效率高(5× 省算力)的，最适合上手。
触觉钩子：能否在它的"空间推理"里再加一层"接触/力"的空间化中间量？值得试。
全开源 + 比 GR00T 省 5× 算力 → 若要复刻"动作推理"范式，这是首选底座。