type: 详读（中文全文摘要） domain: 大脑·学习方法对应卡片: 卡片-Motus arxiv: "2512.13030" 来源: 全文精读(arXiv txt 正文 v2, 2025-12)，🤖Claude 摘译，关键数字📄来自正文表格 date: 2026-07-04

详读 · Motus：统一潜动作世界模型（2025-12，清华+生数+北大+地平线）¶

一、问题与核心主张¶

问题：通用具身体应是统一系统，但现有方法把"理解/世界建模/控制"拆成孤立模型，难以统一多模态生成能力、也难从大规模异构数据学习。具身其实分裂成 5 个建模任务：VLA / WM(世界模型) / IDM(逆动力学) / VGM(视频生成) / 视频-动作联合预测。
主张：Motus——统一潜动作世界模型，复用现成预训练模型 + 光流潜动作，把 5 种范式塞进一个网络、推理时自适应切换。

MoT(Mixture-of-Transformer) 三专家：理解(Qwen3-VL-2B) / 视频生成(Wan 2.2-5B) / 动作(与 Wan 同深的 Transformer 块，AdaLN 注入 flow timestep)。
Tri-model Joint Attention：各专家保留独立 Transformer，但多头自注意层拼接共享 → 既不互相干扰又跨模态融合(借鉴 Bagel/MoT)。
UniDiffuser 式调度器：给视频和动作分配不同 timestep 与噪声尺度，用整流流(rectified flow)联合预测视频块+动作块 → 一个模型统一建 marginal/conditional/joint 分布，推理时自适应切 VLA/WM/IDM/VGM/联合预测。
Action-Dense Video-Sparse：视频帧下采样到动作帧率 1/6，平衡 video/action token，防偏向视频预测而弱化动作。

用 DPFlow 算光流→转 RGB 图，当"像素级 delta action"。
DC-AE(深压缩自编码器) 重建光流、编成 4×512 token → 轻量编码器投到 14 维(对齐真机动作尺度)。
训练:90% 无标注自监督重建 + 10% 弱动作监督(含 AnyPos 式 task-agnostic 数据用 Curobo 随机采样机器人动作空间)，把潜空间锚到真实控制分布。损失 = 重建 + 对齐 + KL。

RoboTwin 2.0 随机化多任务(50+ 任务，2500 clean+25000 randomized 训，各任务 100 trials)：Motus 均值 87.02%(clean 88.66) —— 超 π0.5 43.84(+45% 绝对)、X-VLA 72.84(+15%)。
真机(partial success rate)：AC-One 均值 63.22% vs π0.5 14.79；Agilex-Aloha-2 59.30% vs 48.60。整体真机 +11~48%。任务含 fold towel / brew coffee / grind beans 等长程。
消融(RoboTwin 随机化)：w/o pretrain 77.00 → Stage1 81.86 → Stage2 87.02(+10)。→ 潜动作预训练(Stage2)是主增益。

arXiv 2512.13030 v2(2025-12)；清华 thu-ml(Jun Zhu/Hang Su，生数科技创始团队) + 北大 + 地平线机器人。代码 thu-ml/Motus。

产业关联(防混淆)：Motus = 清华+生数(thu-ml)线的隐空间世界模型，商用版是生数 Motubrain；不是追踪-无界动力的 MWA™(无界×中科院自动化所)。两条中国"隐空间世界模型+潜动作"线是两支团队两个模型，别混。
与卡片-AdaWorld 方法分歧：Motus 用光流抽潜动作，AdaWorld 却证"连续 VAE 潜动作 > 光流"。→ 潜动作怎么抽无定论，已在概念-隐空间与潜动作学习对照。
Motus 属"大一统 UWM"路线(对比卡片-LAPA/卡片-villa-X 专精潜动作)——统一性强但骨干重，是"通才 vs 专精"另一极。