详读 · UniSim(Learning Interactive Real-World Simulators)¶
卡片版见 卡片-UniSim。本页是全文精读:动机 → 方法(逐模块) → 三大应用(全表) → 消融 → 诚实局限 → 洞见 → 对我们。 来源:arXiv 2310.06114(v3, 2024-09-26)· 项目页 · ICLR 2024 Outstanding Paper 作者:Sherry Yang(UC Berkeley / Google DeepMind)、Yilun Du、S.K.S. Ghasemipour、Jonathan Tompson、Leslie Kaelbling、Dale Schuurmans、Pieter Abbeel(UC Berkeley / Google DeepMind / MIT / U. Alberta)
0. 一句话定位¶
把"对真实世界的交互"统一成一个 action-in → video-out 的接口:用条件视频扩散模型把横跨物体/动作/运动/全景/文本图像的多源数据集"编排"到一起,学一个能对各种动作(语言指令 / 机器人低层控制 / 相机运动)生成真实视觉后果的世界模拟器。在它里面纯仿真训练的高层 VLM 策略、低层 RL 策略,可零样本迁到真机;它生成的视频还能反过来训练视频字幕等其他模型。
1. 问题与动机¶
- 生成模型已能造逼真文本/图像/视频,但多停在"生成媒体",没成为能多轮交互的智能体环境。策略学习的真正瓶颈:缺真实环境可供大量、安全、可并行地试。
- 单一数据集都偏科:网络图文(LAION/ALIGN)富在物体场景、缺运动;视频问答富在高层描述、缺低层动作;人类活动(Ego4D)富在人手动作、缺机械运动;机器人数据(Bridge/RT-1)富在机器人动作、但量少。各社区为不同目的采集,信息天然割裂。
- 切入点:不追求"模拟一切"(声音就不模拟),而是统一到"动作→视频"接口,靠把各数据集的不同维度信息编排进同一个视频生成框架来互补。

2. 方法¶
2.1 编排多源数据(统一动作空间)¶
关键工程:把五类异构数据的"动作"都转成同一种连续表示——文本经 T5 语言模型 embedding;有低层控制时,归一化后离散成 4096 个 bin 再与语言 embedding 拼接。各类处理:
- 仿真执行/渲染:Habitat 物体导航(HM3D) + Language Table sim。有文本就取文本作动作,连续控制用语言 embedding + 离散控制值编码。
- 真实机器人:Bridge Data、RT-1/RT-2 数据。各机器人低层控制不通用,但任务描述可作高层动作;有连续控制时一并离散化。
- 人类活动视频:Ego4D、EPIC-KITCHENS、Something-Something V2。把视频分类标签转成文本动作;按能体现动作的帧率子采样成观测块。
- 全景扫描:Matterport3D 等静态 3D 扫描本无动作 → 用相邻图像间相机位姿构造动作(如"左转")。
- 网络图文:LAION 等。把单图当单帧视频、把图注当动作(图注里常含"a person walking"等运动信息)。
2.2 公式:观测预测模型 + 视频扩散¶

- 把模拟器建成观测预测模型
p(o_t | h_{t-1}, a_{t-1}):给历史帧 + 一个"时间上延展的动作",预测下一段视频帧。理想要条件于全部过去,但作者发现只取最近几帧(如 o_{t-1})就大幅简化建模;长程交互靠自回归采样实现。 - 优点:模拟器与任务/奖励解耦——同一个模拟器配任意单独学的奖励函数,再用规划/RL 优化策略
π(a_t|h_t)。 - 用扩散参数化:反向去噪
ϵ_θ(o_t^{(k)}, k | h_{t-1}, a_{t-1}),历史帧与初始噪声按通道拼接作条件输入;动作条件用 classifier-free guidance,强度由 η 控制(式1)。训练目标是标准的去噪 MSE。
2.3 架构与训练(全量超参)¶
- 3D U-Net(时空注意力 + 卷积交替),含 1 个历史条件基础预测模型 + 2 个空间超分模型。分辨率链:基础 [16,24,40](时间×空间)→ 超分 [24,40]→[48,80]→[192,320]。基础模型用时间注意力(最大灵活度),超分用时间卷积(省算力)。历史条件 = 取上一段 4 帧按通道拼接到噪声。
| 超参 | 值 |
|---|---|
| 参数量 | 5.6B |
| 训练硬件 / 时长 | 512 TPU-v3,约 20 天 |
| 训练步数 | 1,000,000 |
| Base channels / 通道倍率 | 1024 / [1,2,4] |
| Batch size | 256 |
| 学习率 / 优化器 | 1e-4 / Adam(0.9, 0.99) |
| 注意力分辨率 / 头数 | 6,12,24 / 16,16,8 |
| 条件 embedding 维度 / token 长度 | 4096 / 64 |
| 噪声调度 / log-SNR | cosine / [-20, 20] |
| 采样步数 | 256 |
| EMA / dropout / weight decay | 0.9999 / 0.1 / 0.0 |
| 预测目标 | ϵ |
2.4 训练数据全表(Table 5)¶
混合权重只取 0.1 或 0.05,未细调(作者自承"数据混合权重如何影响性能是有趣的未来工作")。
| 类别 | 数据集 | 样本数(约) | 混合权重 |
|---|---|---|---|
| 仿真 | Habitat HM3D | 710 | 0.1 |
| 仿真 | Language Table sim | 160k | 0.05 |
| 真实机器人 | Bridge Data | 2k | 0.05 |
| 真实机器人 | RT-1 data | 70k | 0.1 |
| 真实机器人 | Language Table real | 440k | 0.05 |
| 真实机器人 | 杂项机器人视频 | 133k | 0.05 |
| 人类活动 | Ego4D | 3.5M | 0.1 |
| 人类活动 | Something-Something V2 | 160k | 0.1 |
| 人类活动 | EPIC-KITCHENS | 25k | 0.1 |
| 人类活动 | 杂项人类视频 | 50k | 0.05 |
| 全景扫描 | Matterport R2R scans | 3.5M | 0.1 |
| 网络图文 | LAION-400M | 400M | 0.05 |
| 网络图文 | ALIGN | 400M | 0.05 |
| 网络视频 | 杂项视频 | 13M | 0.05 |
3. 模拟能力(定性)¶

- 动作丰富:同一初始帧可执行多种语言动作(操作 / 按不同开关 / 导航)。只在通用网络数据上训练(不含 EPIC-KITCHENS 等)则无法模拟动作密集操作(附录F)。
- 长程一致:自回归连做 8 步指令,正确保留被前序指令操纵的物体与位置。
- 多样/随机:能采样出被揭开后露出的不同物体、不同颜色/位置的杯笔、相机角度变化——扩散的随机性让策略学会"只控可控部分"。
4. 三大应用(全量数字)¶
4.1 应用一:高层 VLM 长程策略(hindsight relabeling)¶
- 环境:Language Table 积木重排。改 PALM-E 12B 成"目标图 + 当前图 → 语言指令"的 VLM 策略,64 TPU-v3 训 1 天。
- 做法:在模拟器里 rollout,每条轨迹滚 3-5 次(每次一条脚本语言指令),造 10k 条长程轨迹;用每条末帧作目标、脚本指令链作监督,训 VLM。执行时 VLM 出指令 → 模拟器生成 16 帧视频 → 用逆动力学模型还原低层控制 → 上真机。
- 指标 RDG(到目标距离的下降比例):
| 方法 | RDG(moved) | RDG(all) |
|---|---|---|
| VLM-BC(原短程数据) | 0.11 ± 0.13 | 0.07 ± 0.11 |
| Simulator-Hindsight(模拟长程数据) | 0.34 ± 0.13 | 0.34 ± 0.13 |
用模拟器造的长程数据训练,比用原始短程数据好 3-4 倍;且真机零样本执行成功(图7)。

4.2 应用二:低层 RL 策略(model-based RL)¶
- 基线/策略:微调 PaLI 3B 用 BC 学"图像+任务 → 低层控制(Δx,Δy)",即 VLA 策略。
- 奖励:用训练数据的 steps-to-completion 作代理奖励,学一个"观测→剩余步数 d(o,g)"模型;RL 奖励
r = −[d(o_{t+1},g) − d(o_t,g)]·C,C=5e-2。 - RL:把模拟器经 RPC 包成 DM Env,用 REINFORCE 优化;64 actor、batch 64、γ=0.9、每回合 ≤100 步、2 帧历史堆叠。
- 结果(48 个任务的成功率,定性评估):
| 方法 | 成功率(全部) | 成功率(pointing) |
|---|---|---|
| VLA-BC | 0.58 | 0.12 |
| Simulator-RL | 0.81 | 0.71 |
RL 微调大幅提升,尤其在演示稀少的 pointing 类任务(0.12→0.71)。模拟器训出的 RL 策略零样本上真机成功(图8)。

4.3 应用三:给视频字幕模型造训练数据¶
- 用 UniSim 据 ActivityNet Captions 训练集的 30,740 条文本各生成 4 个视频(=4× 数据),微调 PaLI-X (55B),测 CIDEr。文本-only 条件:输入白图占位 + 加大文本 guidance。
| 数据 | ActivityNet | MSR-VTT | VATEX | SMIT |
|---|---|---|---|---|
| 不微调 | 15.2 | 21.91 | 13.31 | 9.22 |
| 真实数据微调 | 54.90 | 24.88 | 36.01 | 16.91 |
| UniSim 生成数据微调 | 46.23 | 27.63 | 40.03 | 20.58 |
纯用生成数据就把 ActivityNet 从 15.2 拉到 46.23(≈真实数据的 84%),且迁移到其他字幕任务(MSR-VTT/VATEX/SMIT)反而超过真实数据微调——真实数据易过拟合到 ActivityNet。
5. 消融与分析¶
历史帧条件(Table 1,Ego4D):
| 条件 | FID ↓ | FVD ↓ | IS ↑ | CLIP ↑ |
|---|---|---|---|---|
| 1 帧 | 59.47 | 315.69 | 3.03 | 22.55 |
| 4 帧(远,指数增距) | 34.89 | 237 | 3.43 | 22.62 |
| 4 帧(近) | 34.63 | 211.3 | 3.52 | 22.63 |
多帧 > 单帧;近期历史 > 久远历史;超过 4 帧在 Ego4D 上无进一步提升(但对需远程记忆的任务可能有用)。
数据集消融(Table 8,留出测试集):
| 数据 | FVD ↓ | CLIP ↑ |
|---|---|---|
| 仅网络数据 | 219.62 | 22.27 |
| 去掉网络数据 | 307.80 | 21.99 |
| 全部(Universal) | 211.30 | 22.63 |
去掉网络数据 FVD 显著变差(211→308)——网络数据对 UniSim 很关键。
模型规模(Table 9):
| 规模 | FVD ↓ | CLIP ↑ |
|---|---|---|
| 500M | 277.85 | 22.08 |
| 1.6B | 224.61 | 22.27 |
| 5.6B | 211.30 | 22.63 |
越大越好,但 FVD 提升随规模趋于平台——作者称"从 scaling 角度略令人失望"。
低数据域技巧:天真混合大小悬殊的数据会让小数据域(如 710 例的 Habitat)生成质量差;给动作加数据集标识符(数据集名)可提升域内质量,但会损害对其他域的泛化,只在测试域属训练分布内时用。
6. 诚实局限(作者自列)¶
- 幻觉(Hallucination):对场景不合理的动作(给桌面机器人"洗手")会幻觉(桌子变水槽)。理想应能检测不可模拟的动作而非硬编。
- 记忆有限:只条件几帧近期历史 → 抓不住长期记忆(抽屉里的苹果若不在条件历史中,开抽屉时可能消失)。
- 域外泛化有限:只在 约 4 种机器人形态上训过,对没见过的机器人泛化弱;需进一步扩数据。
- 只模拟视觉:动作不引起视觉变化的场景(如对静止杯子施加不同抓握力)无法处理;真正通用模拟器应含声音/触觉/感官等视觉之外的维度。
7. 核心洞见¶
- 关键命题:把"视频生成"当成动力学建模问题(action→video 的条件预测),而非生成媒体——这是它与其他视频生成工作的根本分野。
- 数据编排 > 单域堆量:价值在于把割裂的多源数据统一到"动作-视频"接口互补,网络数据 + 多样活动/机器人数据缺一不可(Table 8)。
- 模拟器与奖励解耦:一个不变的世界模型 + 可换的奖励/策略,使同一模拟器服务高层 VLM、低层 RL、字幕模型三类下游。
- 闭 sim2real:视觉上"几乎与真实难辨",是把纯仿真训练直接迁真机的关键。
8. 对我们¶
- 世界模型当模拟器的旗舰:与本库 综述-世界模型 主线一致,可与 卡片-Genie、卡片-Cosmos、卡片-DreamerV3、卡片-iVideoGPT、卡片-NWM、卡片-VT-WM、卡片-VPP 横向对照——UniSim 偏像素级条件扩散 + 多源数据编排,与 Dreamer 类隐空间世界模型走的是两条路。
- 数据接口思想:"动作→视频"统一接口 + 把异构动作(语言/控制/相机)都映到 T5 embedding + 离散 bin,与 综述-VLA模型、卡片-RT-1、卡片-RT-2 的动作表示问题同源。
- 诚实缺口正是本库触觉主线的入口:UniSim 只模拟视觉,明确点名"对静止物体施加不同抓握力"这类无视觉变化的接触场景无法处理——这正对应本库 综述-世界模型 里反复强调的力/触觉空白,可与 卡片-Tactile-VLA、卡片-OmniVTA 等触觉方向互为对照。
- 方法可借:用世界模型生成数据反哺下游(hindsight relabeling 造长程数据、生成数据训字幕)是通用套路;scaling 在 FVD 上趋平台的现象,对"加大世界模型规模"的预期是一条诚实参考。