跳转至

机器人知识库

MolmoAct —— 能"在空间中推理"的动作推理模型（开源）

MolmoAct：先在"空间"里推理（深度→轨迹），再出动作¶

📅 2025-08 · 🏛 Ai2（艾伦研究所）· 🏷 VLA·空间动作推理 📌 一句话省流：别的 VLA 看一眼就出动作，MolmoAct 先在"空间"里想三步——先估深度、再在画面上画出"手要走的轨迹"、最后才出动作；每步都看得见、可手动改(在画面上画条线就能纠正它，75% vs 语言 42%)。全开源，还比 GR00T 省 5× 算力。 ≈ 打比方：让机器人"先在脑子里画好路线图再动手"，而且路线图你能拿笔改。 🔬 详读：详读-MolmoAct 🎬 官方博客

🧰 对我们（可用性速判）¶

对我们的用处："加可解释空间中间表征"这条路最值得上手的开源实现——和卡片-ReKep(关键点)、卡片-ECoT(语言推理)、卡片-TraceVLA(视觉轨迹)同家族，但它全开源 + 效率高(5× 省算力)。触觉钩子：能否在它的空间推理里再加"接触/力"的空间化中间量。
真实性：✅ 全文精读 + Ai2 全开源 + 多基准超 π0/GR00T N1.5。
训练/微调资源：预训练 9,216 GPU 小时(比 GR00T 5× 省)；可微调。
能借多少(开源)：✅ 权重 + MolmoAct Dataset + 代码(HuggingFace)。
可用性结论：直接可用 / 复刻"动作推理"范式首选。
🔬 详读（全文）：详读-MolmoAct

亮点（全文精读后定位）¶

三段空间推理：深度 token(VQVAE) → 2D 轨迹折线 → 动作 token(256 bin, BPE 初始化)，逐级条件化。
可操控：手画轨迹叠到画面即可闭环纠偏，75% vs 语言 42%。
数据：26.3M 预训练 + 首发 MolmoAct Dataset(10,689 条 Franka 轨迹)。
高效：9,216 GPU 小时，比 GR00T N1.5(5 万) 快 5×+。

关键数字（每条带来源 [n]）¶

[1] SimplerEnv 70.5% 零样本，超 π0/π0-FAST/GR00T N1.5；LIBERO 86.6%(+6.3 over ThinkAct)。✅📄
[2] 真机：单臂 +10%、双臂 +22.7%(任务进度 vs π0-FAST)；OOD +23.3%。✅📄
[3] 轨迹操控 75% vs 语言 42%(+33pp)；预训练 9,216 GPU 小时(5× 省于 GR00T)。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2508.07917（✅ 全文精读）。
代码/数据：✅ 全开源(Ai2/HuggingFace)。
证据等级：A → 权重：中(偏上)。

🧪 复现条件与成本（暂不亲做，只估）¶

微调：开放权重 + MolmoAct Dataset，门槛中等；预训练 9k GPU 小时(比 GR00T 省)。
侧证判价值：全开源 ✅ / 多基准超 SOTA ✅ / 效率高 ✅ / 可解释中间量 ✅。

💡 我的批注 / 判断（🤖，待人复核）¶

若要复刻"动作推理/空间中间表征"范式，MolmoAct 是首选底座(全开源 + 5× 省算力)。和卡片-Gemini-Robotics 的 ER 是同潮流，但这个拿得到。
触觉×VLA 的具体试法：在深度→轨迹之外，加一层"接触点/力"的空间化中间量，让动作推理显式 ground 到触觉。

来源编号¶

[1][2][3] arXiv 2508.07917 全文（✅，见详读-MolmoAct）。