跳转至

type: 详读(中文全文摘要) domain: 大脑·学习方法 对应卡片: 卡片-Motus arxiv: "2512.13030" 来源: 全文精读(arXiv txt 正文 v2, 2025-12),🤖Claude 摘译,关键数字📄来自正文表格 date: 2026-07-04


详读 · Motus:统一潜动作世界模型(2025-12,清华+生数+北大+地平线)

一、问题与核心主张

  • 问题:通用具身体应是统一系统,但现有方法把"理解/世界建模/控制"拆成孤立模型,难以统一多模态生成能力、也难从大规模异构数据学习。具身其实分裂成 5 个建模任务:VLA / WM(世界模型) / IDM(逆动力学) / VGM(视频生成) / 视频-动作联合预测
  • 主张Motus——统一潜动作世界模型,复用现成预训练模型 + 光流潜动作,把 5 种范式塞进一个网络、推理时自适应切换。

二、方法

2.1 架构:MoT + Tri-model Joint Attention + UniDiffuser 调度

  • MoT(Mixture-of-Transformer) 三专家:理解(Qwen3-VL-2B) / 视频生成(Wan 2.2-5B) / 动作(与 Wan 同深的 Transformer 块,AdaLN 注入 flow timestep)。
  • Tri-model Joint Attention:各专家保留独立 Transformer,但多头自注意层拼接共享 → 既不互相干扰又跨模态融合(借鉴 Bagel/MoT)。
  • UniDiffuser 式调度器:给视频和动作分配不同 timestep 与噪声尺度,用整流流(rectified flow)联合预测视频块+动作块 → 一个模型统一建 marginal/conditional/joint 分布,推理时自适应切 VLA/WM/IDM/VGM/联合预测。
  • Action-Dense Video-Sparse:视频帧下采样到动作帧率 1/6,平衡 video/action token,防偏向视频预测而弱化动作。

2.2 光流潜动作

  • DPFlow 算光流→转 RGB 图,当"像素级 delta action"。
  • DC-AE(深压缩自编码器) 重建光流、编成 4×512 token → 轻量编码器投到 14 维(对齐真机动作尺度)。
  • 训练:90% 无标注自监督重建 + 10% 弱动作监督(含 AnyPos 式 task-agnostic 数据用 Curobo 随机采样机器人动作空间),把潜空间锚到真实控制分布。损失 = 重建 + 对齐 + KL。

2.3 三阶段训练 + 六层数据金字塔

  • Stage 1(视频生成):多机器人轨迹+人类视频 adapt VGM,学"据指令+初帧生成合理未来视频"。
  • Stage 2(统一潜动作预训练):冻 VLM,在视频/语言/潜动作上训整个 Motus,把运动/交互知识嵌进潜动作空间。
  • Stage 3(目标机器人 SFT):目标机器人数据微调。
  • 数据金字塔六层:web / 人类第一视角 / 合成 / task-agnostic / 多机器人 / 目标机器人(从底到顶量减质增)。

三、关键结果(📄 正文表格)

  • RoboTwin 2.0 随机化多任务(50+ 任务,2500 clean+25000 randomized 训,各任务 100 trials):Motus 均值 87.02%(clean 88.66) —— 超 π0.5 43.84(+45% 绝对)X-VLA 72.84(+15%)
  • 真机(partial success rate):AC-One 均值 63.22% vs π0.5 14.79;Agilex-Aloha-2 59.30% vs 48.60。整体真机 +11~48%。任务含 fold towel / brew coffee / grind beans 等长程。
  • 消融(RoboTwin 随机化):w/o pretrain 77.00 → Stage1 81.86 → Stage2 87.02(+10)。→ 潜动作预训练(Stage2)是主增益。

四、局限(作者自陈 §6)

  • 骨干重(5B VGM + 2B VLM),训练/推理成本高。
  • future work 承认潜动作还想"从互联网级通用视频"学(现主要机器人/人类视频)。
  • 真机部分任务(Fold Towel、Hanging Mug)绝对成功率仍低,长程/形变仍难。

五、开源 / 出处

  • arXiv 2512.13030 v2(2025-12);清华 thu-ml(Jun Zhu/Hang Su,生数科技创始团队) + 北大 + 地平线机器人。代码 thu-ml/Motus

六、对我们(精读后判断,🤖)

  • 产业关联(防混淆):Motus = 清华+生数(thu-ml)线的隐空间世界模型,商用版是生数 Motubrain不是 追踪-无界动力 的 MWA™(无界×中科院自动化所)。两条中国"隐空间世界模型+潜动作"线是两支团队两个模型,别混。
  • 卡片-AdaWorld 方法分歧:Motus 用光流抽潜动作,AdaWorld 却证"连续 VAE 潜动作 > 光流"。→ 潜动作怎么抽无定论,已在 概念-隐空间与潜动作学习 对照。
  • Motus 属"大一统 UWM"路线(对比 卡片-LAPA/卡片-villa-X 专精潜动作)——统一性强但骨干重,是"通才 vs 专精"另一极。