Motus:把具身的 5 种范式塞进一个统一潜动作世界模型¶
📌 一句话省流:清华 thu-ml(Jun Zhu/Hang Su)+ 北大 + 地平线的"统一潜动作世界模型"。用 MoT(Mixture-of-Transformer) 把三个专家——理解(Qwen3-VL-2B) / 视频生成(Wan 2.2-5B) / 动作——用共享自注意层(Tri-model Joint Attention) 连起来,再配 UniDiffuser 式调度器,让一个模型自适应切换 5 种具身范式:VLA / 世界模型(WM) / 逆动力学(IDM) / 视频生成(VGM) / 视频-动作联合预测。潜动作用光流(DPFlow)→DC-AE→14 维向量从无标注视频抽取;三阶段训练 + 六层数据金字塔。
🎬 演示:项目页 motus-robotics.github.io · 代码 thu-ml/Motus 🔬 全文精读 + 关键图 + 数字:详读-Motus 🔗 概念背景:概念-隐空间与潜动作学习;产业关联见 追踪-无界动力(相邻·不同团队)
🧰 对我们(可用性速判)¶
- 用处:"统一世界模型(UWM)"路线的强实现;"复用预训练 VLM+VGM、用共享注意力融合"和"光流潜动作"两个设计可借。
- 真实性:全文已核(A);RoboTwin 2.0 + 两套真机双臂(AC-One / Agilex-Aloha-2)。
- 训练/微调资源:重——含 5B 视频生成骨干(Wan 2.2) + 2B VLM;六层数据金字塔预训练;目标机器人 100 条微调。
- 能借多少(开源):代码开源(thu-ml/Motus) → 思路+代码可借。
- 可用性结论:想做"理解+生成+动作三合一"的统一大脑,Motus 是当前一手参考;但骨干偏重、落地成本高。
亮点到底在哪(读全文后定位)¶
- 亮点在"统一 5 范式而不牺牲预训练先验":不像 UWM 从头训,Motus 复用现成 VLM/VGM 的先验,靠 MoT 各专家独立、只共享多头自注意 → 既不互相干扰又能跨模态融合。[1]
- 光流潜动作:把 DPFlow 光流压成"像素级 delta action"→ DC-AE 编成 4×512 → 轻量编码器投到 14 维(对齐真机动作尺度);90% 无标注重建 + 10% 弱动作监督(含 task-agnostic 数据)把潜空间锚到真实控制分布。[1]
- Action-Dense Video-Sparse:视频帧下采样到动作帧率的 1/6,平衡 video/action token 数,防模型偏向视频预测而弱化动作。[1]
关键数字(全文核实 📄)¶
- RoboTwin 2.0 随机化多任务(50+ 任务):Motus 均值 87.02%(clean 88.66)—— 超 π0.5 43.84(+45% 绝对)、X-VLA 72.84(+15%)。[1]
- 真机(partial success):AC-One 均值 63.22% vs π0.5 14.79;Agilex-Aloha-2 59.30% vs 48.60。整体真机 +11~48%。[1]
- 消融(RoboTwin 随机化):w/o pretrain 77.00 → Stage1 81.86 → Stage2(潜动作预训练) 87.02 → 潜动作预训练是主增益。[1]
🔎 证据与可信度¶
- 论文:arXiv 2512.13030 v2(2025-12);清华 thu-ml(Jun Zhu/Hang Su,生数科技创始团队)+ 北大 + 地平线机器人。✅ 全文已读。
- 代码:github.com/thu-ml/Motus ✅ 开源。
- 证据等级 A:全文+RoboTwin/真机表+消融核实;扣分因未亲测复现。
🧱 局限(作者自陈 §6)¶
- 骨干重(5B VGM + 2B VLM),训练/推理成本高。
- future work 承认潜动作还想"从互联网级通用视频学"——现阶段主要在机器人/人类视频。
- 真机部分任务(如 Fold Towel、Hanging Mug)绝对成功率仍低,长程/形变仍难。
💡 我的批注 / 判断(🤖)¶
- 产业关联要点(防混淆):Motus 是清华+生数(thu-ml)线的隐空间世界模型,商用进化版是生数的 Motubrain;它不是 追踪-无界动力 的 MWA™(那是无界×中科院自动化所的另一个隐空间世界模型)。两条线都"隐空间世界模型+潜动作",但是两支团队两个模型,别混。
- 与 卡片-AdaWorld 的方法分歧:Motus 用光流抽潜动作;AdaWorld 实验却说"连续 VAE 潜动作 > 光流条件"。→ "潜动作怎么抽"没定论,两篇相左,已在 概念-隐空间与潜动作学习 对照记。
- Motus 属"大一统 UWM"路线(对比 卡片-LAPA/卡片-villa-X 的专精潜动作)——统一性强但骨干重,是"通才 vs 专精"的另一极。
- 触觉无。
来源编号¶
- [1] arXiv 2512.13030(全文 txt 精读 2026-07-04)· 本地
papers/Motus-UnifiedLatentActionWorldModel-2512.13030.pdf