Motus：把具身的 5 种范式塞进一个统一潜动作世界模型¶

📌 一句话省流：清华 thu-ml（Jun Zhu/Hang Su）+ 北大 + 地平线的"统一潜动作世界模型"。用 MoT(Mixture-of-Transformer) 把三个专家——理解(Qwen3-VL-2B) / 视频生成(Wan 2.2-5B) / 动作——用共享自注意层(Tri-model Joint Attention) 连起来，再配 UniDiffuser 式调度器，让一个模型自适应切换 5 种具身范式：VLA / 世界模型(WM) / 逆动力学(IDM) / 视频生成(VGM) / 视频-动作联合预测。潜动作用光流(DPFlow)→DC-AE→14 维向量从无标注视频抽取；三阶段训练 + 六层数据金字塔。

🎬 演示：项目页 motus-robotics.github.io · 代码 thu-ml/Motus 🔬 全文精读 + 关键图 + 数字：详读-Motus 🔗 概念背景：概念-隐空间与潜动作学习；产业关联见追踪-无界动力（相邻·不同团队）

🧰 对我们（可用性速判）¶

用处："统一世界模型(UWM)"路线的强实现；"复用预训练 VLM+VGM、用共享注意力融合"和"光流潜动作"两个设计可借。
真实性：全文已核(A)；RoboTwin 2.0 + 两套真机双臂(AC-One / Agilex-Aloha-2)。
训练/微调资源：重——含 5B 视频生成骨干(Wan 2.2) + 2B VLM；六层数据金字塔预训练；目标机器人 100 条微调。
能借多少(开源)：代码开源(thu-ml/Motus) → 思路+代码可借。
可用性结论：想做"理解+生成+动作三合一"的统一大脑，Motus 是当前一手参考；但骨干偏重、落地成本高。

亮点到底在哪（读全文后定位）¶

亮点在"统一 5 范式而不牺牲预训练先验"：不像 UWM 从头训，Motus 复用现成 VLM/VGM 的先验，靠 MoT 各专家独立、只共享多头自注意 → 既不互相干扰又能跨模态融合。[1]
光流潜动作：把 DPFlow 光流压成"像素级 delta action"→ DC-AE 编成 4×512 → 轻量编码器投到 14 维(对齐真机动作尺度)；90% 无标注重建 + 10% 弱动作监督(含 task-agnostic 数据)把潜空间锚到真实控制分布。[1]
Action-Dense Video-Sparse：视频帧下采样到动作帧率的 1/6，平衡 video/action token 数，防模型偏向视频预测而弱化动作。[1]

关键数字（全文核实 📄）¶

RoboTwin 2.0 随机化多任务(50+ 任务)：Motus 均值 87.02%（clean 88.66）—— 超 π0.5 43.84（+45% 绝对）、X-VLA 72.84（+15%）。[1]
真机(partial success)：AC-One 均值 63.22% vs π0.5 14.79；Agilex-Aloha-2 59.30% vs 48.60。整体真机 +11~48%。[1]
消融(RoboTwin 随机化)：w/o pretrain 77.00 → Stage1 81.86 → Stage2(潜动作预训练) 87.02 → 潜动作预训练是主增益。[1]

🔎 证据与可信度¶

论文：arXiv 2512.13030 v2（2025-12）；清华 thu-ml（Jun Zhu/Hang Su，生数科技创始团队）+ 北大 + 地平线机器人。✅ 全文已读。
代码：github.com/thu-ml/Motus ✅ 开源。
证据等级 A：全文+RoboTwin/真机表+消融核实；扣分因未亲测复现。

🧱 局限（作者自陈 §6）¶

骨干重(5B VGM + 2B VLM)，训练/推理成本高。
future work 承认潜动作还想"从互联网级通用视频学"——现阶段主要在机器人/人类视频。
真机部分任务(如 Fold Towel、Hanging Mug)绝对成功率仍低，长程/形变仍难。

💡 我的批注 / 判断（🤖）¶

产业关联要点（防混淆）：Motus 是清华+生数(thu-ml)线的隐空间世界模型，商用进化版是生数的 Motubrain；它不是追踪-无界动力的 MWA™（那是无界×中科院自动化所的另一个隐空间世界模型）。两条线都"隐空间世界模型+潜动作"，但是两支团队两个模型，别混。
与卡片-AdaWorld 的方法分歧：Motus 用光流抽潜动作；AdaWorld 实验却说"连续 VAE 潜动作 > 光流条件"。→ "潜动作怎么抽"没定论，两篇相左，已在概念-隐空间与潜动作学习对照记。
Motus 属"大一统 UWM"路线（对比卡片-LAPA/卡片-villa-X 的专精潜动作）——统一性强但骨干重，是"通才 vs 专精"的另一极。
触觉无。

来源编号¶

[1] arXiv 2512.13030（全文 txt 精读 2026-07-04）· 本地 papers/Motus-UnifiedLatentActionWorldModel-2512.13030.pdf