跳转至

MolmoAct:先在"空间"里推理(深度→轨迹),再出动作

📅 2025-08 · 🏛 Ai2(艾伦研究所)· 🏷 VLA·空间动作推理 📌 一句话省流:别的 VLA 看一眼就出动作,MolmoAct 先在"空间"里想三步——先估深度、再在画面上画出"手要走的轨迹"、最后才出动作;每步都看得见、可手动改(在画面上画条线就能纠正它,75% vs 语言 42%)。全开源,还比 GR00T 省 5× 算力。 ≈ 打比方:让机器人"先在脑子里画好路线图再动手",而且路线图你能拿笔改。 🔬 详读:详读-MolmoAct 🎬 官方博客

🧰 对我们(可用性速判)

  • 对我们的用处"加可解释空间中间表征"这条路最值得上手的开源实现——和 卡片-ReKep(关键点)、卡片-ECoT(语言推理)、卡片-TraceVLA(视觉轨迹)同家族,但它全开源 + 效率高(5× 省算力)。触觉钩子:能否在它的空间推理里再加"接触/力"的空间化中间量。
  • 真实性:✅ 全文精读 + Ai2 全开源 + 多基准超 π0/GR00T N1.5。
  • 训练/微调资源:预训练 9,216 GPU 小时(比 GR00T 5× 省);可微调。
  • 能借多少(开源):✅ 权重 + MolmoAct Dataset + 代码(HuggingFace)。
  • 可用性结论直接可用 / 复刻"动作推理"范式首选
  • 🔬 详读(全文):详读-MolmoAct

亮点(全文精读后定位)

  • 三段空间推理:深度 token(VQVAE) → 2D 轨迹折线 → 动作 token(256 bin, BPE 初始化),逐级条件化。
  • 可操控:手画轨迹叠到画面即可闭环纠偏,75% vs 语言 42%
  • 数据:26.3M 预训练 + 首发 MolmoAct Dataset(10,689 条 Franka 轨迹)。
  • 高效:9,216 GPU 小时,比 GR00T N1.5(5 万) 快 5×+

关键数字(每条带来源 [n])

  • [1] SimplerEnv 70.5% 零样本,超 π0/π0-FAST/GR00T N1.5;LIBERO 86.6%(+6.3 over ThinkAct)。✅📄
  • [2] 真机:单臂 +10%、双臂 +22.7%(任务进度 vs π0-FAST);OOD +23.3%。✅📄
  • [3] 轨迹操控 75% vs 语言 42%(+33pp);预训练 9,216 GPU 小时(5× 省于 GR00T)。✅📄

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2508.07917(✅ 全文精读)。
  • 代码/数据:✅ 全开源(Ai2/HuggingFace)。
  • 证据等级:A → 权重:中(偏上)

🧪 复现条件与成本(暂不亲做,只估)

  • 微调:开放权重 + MolmoAct Dataset,门槛中等;预训练 9k GPU 小时(比 GR00T 省)。
  • 侧证判价值:全开源 ✅ / 多基准超 SOTA ✅ / 效率高 ✅ / 可解释中间量 ✅。

💡 我的批注 / 判断(🤖,待人复核)

  • 若要复刻"动作推理/空间中间表征"范式,MolmoAct 是首选底座(全开源 + 5× 省算力)。和 卡片-Gemini-Robotics 的 ER 是同潮流,但这个拿得到。
  • 触觉×VLA 的具体试法:在深度→轨迹之外,加一层"接触点/力"的空间化中间量,让动作推理显式 ground 到触觉。

来源编号