MolmoAct:先在"空间"里推理(深度→轨迹),再出动作¶
📅 2025-08 · 🏛 Ai2(艾伦研究所)· 🏷 VLA·空间动作推理 📌 一句话省流:别的 VLA 看一眼就出动作,MolmoAct 先在"空间"里想三步——先估深度、再在画面上画出"手要走的轨迹"、最后才出动作;每步都看得见、可手动改(在画面上画条线就能纠正它,75% vs 语言 42%)。全开源,还比 GR00T 省 5× 算力。 ≈ 打比方:让机器人"先在脑子里画好路线图再动手",而且路线图你能拿笔改。 🔬 详读:详读-MolmoAct 🎬 官方博客
🧰 对我们(可用性速判)¶
- 对我们的用处:"加可解释空间中间表征"这条路最值得上手的开源实现——和 卡片-ReKep(关键点)、卡片-ECoT(语言推理)、卡片-TraceVLA(视觉轨迹)同家族,但它全开源 + 效率高(5× 省算力)。触觉钩子:能否在它的空间推理里再加"接触/力"的空间化中间量。
- 真实性:✅ 全文精读 + Ai2 全开源 + 多基准超 π0/GR00T N1.5。
- 训练/微调资源:预训练 9,216 GPU 小时(比 GR00T 5× 省);可微调。
- 能借多少(开源):✅ 权重 + MolmoAct Dataset + 代码(HuggingFace)。
- 可用性结论:直接可用 / 复刻"动作推理"范式首选。
- 🔬 详读(全文):详读-MolmoAct
亮点(全文精读后定位)¶
- 三段空间推理:深度 token(VQVAE) → 2D 轨迹折线 → 动作 token(256 bin, BPE 初始化),逐级条件化。
- 可操控:手画轨迹叠到画面即可闭环纠偏,75% vs 语言 42%。
- 数据:26.3M 预训练 + 首发 MolmoAct Dataset(10,689 条 Franka 轨迹)。
- 高效:9,216 GPU 小时,比 GR00T N1.5(5 万) 快 5×+。
关键数字(每条带来源 [n])¶
- [1] SimplerEnv 70.5% 零样本,超 π0/π0-FAST/GR00T N1.5;LIBERO 86.6%(+6.3 over ThinkAct)。✅📄
- [2] 真机:单臂 +10%、双臂 +22.7%(任务进度 vs π0-FAST);OOD +23.3%。✅📄
- [3] 轨迹操控 75% vs 语言 42%(+33pp);预训练 9,216 GPU 小时(5× 省于 GR00T)。✅📄
🔎 证据与可信度(见 _卡片规范)¶
- 论文:arXiv 2508.07917(✅ 全文精读)。
- 代码/数据:✅ 全开源(Ai2/HuggingFace)。
- 证据等级:A → 权重:中(偏上)。
🧪 复现条件与成本(暂不亲做,只估)¶
- 微调:开放权重 + MolmoAct Dataset,门槛中等;预训练 9k GPU 小时(比 GR00T 省)。
- 侧证判价值:全开源 ✅ / 多基准超 SOTA ✅ / 效率高 ✅ / 可解释中间量 ✅。
💡 我的批注 / 判断(🤖,待人复核)¶
- 若要复刻"动作推理/空间中间表征"范式,MolmoAct 是首选底座(全开源 + 5× 省算力)。和 卡片-Gemini-Robotics 的 ER 是同潮流,但这个拿得到。
- 触觉×VLA 的具体试法:在深度→轨迹之外,加一层"接触点/力"的空间化中间量,让动作推理显式 ground 到触觉。
来源编号¶
- [1][2][3] arXiv 2508.07917 全文(✅,见 详读-MolmoAct)。