跳转至

详读 · UniSim(Learning Interactive Real-World Simulators)

卡片版见 卡片-UniSim。本页是全文精读:动机 → 方法(逐模块) → 三大应用(全表) → 消融 → 诚实局限 → 洞见 → 对我们。 来源:arXiv 2310.06114(v3, 2024-09-26)· 项目页 · ICLR 2024 Outstanding Paper 作者:Sherry Yang(UC Berkeley / Google DeepMind)、Yilun Du、S.K.S. Ghasemipour、Jonathan Tompson、Leslie Kaelbling、Dale Schuurmans、Pieter Abbeel(UC Berkeley / Google DeepMind / MIT / U. Alberta)

0. 一句话定位

把"对真实世界的交互"统一成一个 action-in → video-out 的接口:用条件视频扩散模型把横跨物体/动作/运动/全景/文本图像的多源数据集"编排"到一起,学一个能对各种动作(语言指令 / 机器人低层控制 / 相机运动)生成真实视觉后果的世界模拟器。在它里面纯仿真训练的高层 VLM 策略、低层 RL 策略,可零样本迁到真机;它生成的视频还能反过来训练视频字幕等其他模型。

1. 问题与动机

  • 生成模型已能造逼真文本/图像/视频,但多停在"生成媒体",没成为能多轮交互的智能体环境。策略学习的真正瓶颈:缺真实环境可供大量、安全、可并行地试。
  • 单一数据集都偏科:网络图文(LAION/ALIGN)富在物体场景、缺运动;视频问答富在高层描述、缺低层动作;人类活动(Ego4D)富在人手动作、缺机械运动;机器人数据(Bridge/RT-1)富在机器人动作、但量少。各社区为不同目的采集,信息天然割裂。
  • 切入点:不追求"模拟一切"(声音就不模拟),而是统一到"动作→视频"接口,靠把各数据集的不同维度信息编排进同一个视频生成框架来互补。

图1 UniSim 总览:从物体/场景/人类活动/导航与操作运动/全景扫描/仿真渲染等广谱数据中学一个真实世界模拟器

2. 方法

2.1 编排多源数据(统一动作空间)

关键工程:把五类异构数据的"动作"都转成同一种连续表示——文本经 T5 语言模型 embedding;有低层控制时,归一化后离散成 4096 个 bin 再与语言 embedding 拼接。各类处理:

  • 仿真执行/渲染:Habitat 物体导航(HM3D) + Language Table sim。有文本就取文本作动作,连续控制用语言 embedding + 离散控制值编码。
  • 真实机器人:Bridge Data、RT-1/RT-2 数据。各机器人低层控制不通用,但任务描述可作高层动作;有连续控制时一并离散化。
  • 人类活动视频:Ego4D、EPIC-KITCHENS、Something-Something V2。把视频分类标签转成文本动作;按能体现动作的帧率子采样成观测块。
  • 全景扫描:Matterport3D 等静态 3D 扫描本无动作 → 用相邻图像间相机位姿构造动作(如"左转")。
  • 网络图文:LAION 等。把单图当单帧视频、把图注当动作(图注里常含"a person walking"等运动信息)。

2.2 公式:观测预测模型 + 视频扩散

图2 UniSim 训练与推理:视频扩散模型据历史帧 o_{t-1} 与动作 a_{t-1} 预测下一段(可变长)观测帧 o_t;可处理电机控制、语言、相机运动等多模态动作;虚线箭头=把上一帧与下一段初始噪声拼接,自回归滚动

  • 把模拟器建成观测预测模型 p(o_t | h_{t-1}, a_{t-1}):给历史帧 + 一个"时间上延展的动作",预测下一段视频帧。理想要条件于全部过去,但作者发现只取最近几帧(如 o_{t-1})就大幅简化建模;长程交互靠自回归采样实现。
  • 优点:模拟器与任务/奖励解耦——同一个模拟器配任意单独学的奖励函数,再用规划/RL 优化策略 π(a_t|h_t)
  • 扩散参数化:反向去噪 ϵ_θ(o_t^{(k)}, k | h_{t-1}, a_{t-1}),历史帧与初始噪声按通道拼接作条件输入;动作条件用 classifier-free guidance,强度由 η 控制(式1)。训练目标是标准的去噪 MSE。

2.3 架构与训练(全量超参)

  • 3D U-Net(时空注意力 + 卷积交替),含 1 个历史条件基础预测模型 + 2 个空间超分模型。分辨率链:基础 [16,24,40](时间×空间)→ 超分 [24,40]→[48,80]→[192,320]。基础模型用时间注意力(最大灵活度),超分用时间卷积(省算力)。历史条件 = 取上一段 4 帧按通道拼接到噪声。
超参
参数量 5.6B
训练硬件 / 时长 512 TPU-v3,约 20 天
训练步数 1,000,000
Base channels / 通道倍率 1024 / [1,2,4]
Batch size 256
学习率 / 优化器 1e-4 / Adam(0.9, 0.99)
注意力分辨率 / 头数 6,12,24 / 16,16,8
条件 embedding 维度 / token 长度 4096 / 64
噪声调度 / log-SNR cosine / [-20, 20]
采样步数 256
EMA / dropout / weight decay 0.9999 / 0.1 / 0.0
预测目标 ϵ

2.4 训练数据全表(Table 5)

混合权重只取 0.1 或 0.05,未细调(作者自承"数据混合权重如何影响性能是有趣的未来工作")。

类别 数据集 样本数(约) 混合权重
仿真 Habitat HM3D 710 0.1
仿真 Language Table sim 160k 0.05
真实机器人 Bridge Data 2k 0.05
真实机器人 RT-1 data 70k 0.1
真实机器人 Language Table real 440k 0.05
真实机器人 杂项机器人视频 133k 0.05
人类活动 Ego4D 3.5M 0.1
人类活动 Something-Something V2 160k 0.1
人类活动 EPIC-KITCHENS 25k 0.1
人类活动 杂项人类视频 50k 0.05
全景扫描 Matterport R2R scans 3.5M 0.1
网络图文 LAION-400M 400M 0.05
网络图文 ALIGN 400M 0.05
网络视频 杂项视频 13M 0.05

3. 模拟能力(定性)

图3/4 动作丰富 + 长程模拟:同一初始帧下做"切胡萝卜/洗手/拿碗"等操作与导航(上);自回归连做 8 步指令并保持物体一致性——橙子放进抽屉后在 4-5 列仍在,罐子在 2-7 列保留(下)

  • 动作丰富:同一初始帧可执行多种语言动作(操作 / 按不同开关 / 导航)。只在通用网络数据上训练(不含 EPIC-KITCHENS 等)则无法模拟动作密集操作(附录F)。
  • 长程一致:自回归连做 8 步指令,正确保留被前序指令操纵的物体与位置。
  • 多样/随机:能采样出被揭开后露出的不同物体、不同颜色/位置的杯笔、相机角度变化——扩散的随机性让策略学会"只控可控部分"。

4. 三大应用(全量数字)

4.1 应用一:高层 VLM 长程策略(hindsight relabeling)

  • 环境:Language Table 积木重排。改 PALM-E 12B 成"目标图 + 当前图 → 语言指令"的 VLM 策略,64 TPU-v3 训 1 天。
  • 做法:在模拟器里 rollout,每条轨迹滚 3-5 次(每次一条脚本语言指令),造 10k 条长程轨迹;用每条末帧作目标、脚本指令链作监督,训 VLM。执行时 VLM 出指令 → 模拟器生成 16 帧视频 → 用逆动力学模型还原低层控制 → 上真机。
  • 指标 RDG(到目标距离的下降比例):
方法 RDG(moved) RDG(all)
VLM-BC(原短程数据) 0.11 ± 0.13 0.07 ± 0.11
Simulator-Hindsight(模拟长程数据) 0.34 ± 0.13 0.34 ± 0.13

用模拟器造的长程数据训练,比用原始短程数据好 3-4 倍;且真机零样本执行成功(图7)。

图5/7 多样随机模拟(上) + VLM 长程策略闭环(下):VLM 出高层语言动作(第一行)→ 模拟器执行(中)≈ 真机执行(底),成功把蓝/绿/黄三块移到目标位

4.2 应用二:低层 RL 策略(model-based RL)

  • 基线/策略:微调 PaLI 3B 用 BC 学"图像+任务 → 低层控制(Δx,Δy)",即 VLA 策略。
  • 奖励:用训练数据的 steps-to-completion 作代理奖励,学一个"观测→剩余步数 d(o,g)"模型;RL 奖励 r = −[d(o_{t+1},g) − d(o_t,g)]·C,C=5e-2。
  • RL:把模拟器经 RPC 包成 DM Env,用 REINFORCE 优化;64 actor、batch 64、γ=0.9、每回合 ≤100 步、2 帧历史堆叠。
  • 结果(48 个任务的成功率,定性评估):
方法 成功率(全部) 成功率(pointing)
VLA-BC 0.58 0.12
Simulator-RL 0.81 0.71

RL 微调大幅提升,尤其在演示稀少的 pointing 类任务(0.12→0.71)。模拟器训出的 RL 策略零样本上真机成功(图8)。

图8 低层控制模拟(上):UniSim 支持 Δx,Δy 控制做水平/垂直/对角移动并捕捉碰撞物理;真机零样本执行 RL 策略"把蓝块移到绿圈"(下)

4.3 应用三:给视频字幕模型造训练数据

  • 用 UniSim 据 ActivityNet Captions 训练集的 30,740 条文本各生成 4 个视频(=4× 数据),微调 PaLI-X (55B),测 CIDEr。文本-only 条件:输入白图占位 + 加大文本 guidance。
数据 ActivityNet MSR-VTT VATEX SMIT
不微调 15.2 21.91 13.31 9.22
真实数据微调 54.90 24.88 36.01 16.91
UniSim 生成数据微调 46.23 27.63 40.03 20.58

纯用生成数据就把 ActivityNet 从 15.2 拉到 46.23(≈真实数据的 84%),且迁移到其他字幕任务(MSR-VTT/VATEX/SMIT)反而超过真实数据微调——真实数据易过拟合到 ActivityNet。

5. 消融与分析

历史帧条件(Table 1,Ego4D)

条件 FID ↓ FVD ↓ IS ↑ CLIP ↑
1 帧 59.47 315.69 3.03 22.55
4 帧(远,指数增距) 34.89 237 3.43 22.62
4 帧(近) 34.63 211.3 3.52 22.63

多帧 > 单帧;近期历史 > 久远历史;超过 4 帧在 Ego4D 上无进一步提升(但对需远程记忆的任务可能有用)。

数据集消融(Table 8,留出测试集)

数据 FVD ↓ CLIP ↑
仅网络数据 219.62 22.27
去掉网络数据 307.80 21.99
全部(Universal) 211.30 22.63

去掉网络数据 FVD 显著变差(211→308)——网络数据对 UniSim 很关键。

模型规模(Table 9)

规模 FVD ↓ CLIP ↑
500M 277.85 22.08
1.6B 224.61 22.27
5.6B 211.30 22.63

越大越好,但 FVD 提升随规模趋于平台——作者称"从 scaling 角度略令人失望"。

低数据域技巧:天真混合大小悬殊的数据会让小数据域(如 710 例的 Habitat)生成质量差;给动作加数据集标识符(数据集名)可提升域内质量,但会损害对其他域的泛化,只在测试域属训练分布内时用。

6. 诚实局限(作者自列)

  • 幻觉(Hallucination):对场景不合理的动作(给桌面机器人"洗手")会幻觉(桌子变水槽)。理想应能检测不可模拟的动作而非硬编。
  • 记忆有限:只条件几帧近期历史 → 抓不住长期记忆(抽屉里的苹果若不在条件历史中,开抽屉时可能消失)。
  • 域外泛化有限:只在 约 4 种机器人形态上训过,对没见过的机器人泛化弱;需进一步扩数据。
  • 只模拟视觉:动作不引起视觉变化的场景(如对静止杯子施加不同抓握力)无法处理;真正通用模拟器应含声音/触觉/感官等视觉之外的维度。

7. 核心洞见

  • 关键命题:把"视频生成"当成动力学建模问题(action→video 的条件预测),而非生成媒体——这是它与其他视频生成工作的根本分野。
  • 数据编排 > 单域堆量:价值在于把割裂的多源数据统一到"动作-视频"接口互补,网络数据 + 多样活动/机器人数据缺一不可(Table 8)。
  • 模拟器与奖励解耦:一个不变的世界模型 + 可换的奖励/策略,使同一模拟器服务高层 VLM、低层 RL、字幕模型三类下游。
  • 闭 sim2real:视觉上"几乎与真实难辨",是把纯仿真训练直接迁真机的关键。

8. 对我们

  • 世界模型当模拟器的旗舰:与本库 综述-世界模型 主线一致,可与 卡片-Genie卡片-Cosmos卡片-DreamerV3卡片-iVideoGPT卡片-NWM卡片-VT-WM卡片-VPP 横向对照——UniSim 偏像素级条件扩散 + 多源数据编排,与 Dreamer 类隐空间世界模型走的是两条路。
  • 数据接口思想:"动作→视频"统一接口 + 把异构动作(语言/控制/相机)都映到 T5 embedding + 离散 bin,与 综述-VLA模型卡片-RT-1卡片-RT-2 的动作表示问题同源。
  • 诚实缺口正是本库触觉主线的入口:UniSim 只模拟视觉,明确点名"对静止物体施加不同抓握力"这类无视觉变化的接触场景无法处理——这正对应本库 综述-世界模型 里反复强调的力/触觉空白,可与 卡片-Tactile-VLA卡片-OmniVTA 等触觉方向互为对照。
  • 方法可借:用世界模型生成数据反哺下游(hindsight relabeling 造长程数据、生成数据训字幕)是通用套路;scaling 在 FVD 上趋平台的现象,对"加大世界模型规模"的预期是一条诚实参考。