跳转至

详读 · Consistency Policy(用一致性蒸馏给扩散策略提速一个数量级)

卡片版见 卡片-ConsistencyPolicy。本页是全文精读:动机 → 方法(逐模块公式直觉) → 实验(全表) → 洞见/局限 → 对我们。 来源:arXiv 2405.07503(v2, 2024-06-28,RSS 2024 会议论文)· 项目页 · 代码 作者:Aaditya Prasad、Kevin Lin、Linqi Zhou、Jeannette Bohg(斯坦福)+ Jimmy Wu(普林斯顿)。经费来自 Toyota Research Institute。

0. 一句话定位

Diffusion Policy教师,用图像生成里的一致性轨迹模型(CTM)蒸馏出一个单步/3 步的学生策略——推理从 DDPM 的 100 步去噪压到 1 步,在受限笔记本 GPU 上把延迟从约 192ms 降到约 21ms(≈9×),而成功率与 DDPM/DDiM 基本持平。目标场景:移动操作机器人、四旋翼等装不下高端 GPU、又要低延迟决策的平台。三个关键设计:一致性目标的选择(CTM-local)、降低初始采样方差、预设 chaining 步

1. 问题与动机

  • 扩散策略的硬伤 = 推理慢:扩散模型靠反复去噪出动作,每出一个动作要多次前向;步数越少质量越掉。Diffusion Policy 用 DDPM 100 步,在 NVIDIA T4 上约 1 秒/动作(3070Ti 上约 1.5 秒)。
  • 这把扩散策略锁死在准静态任务(简单抓放、装配);动态任务(平衡物体、动态环境导航)需要更高控制频率;机载算力受限的机器人更跑不动。
  • 目标:保住 Diffusion Policy 的性能,大幅砍掉推理时间
  • 为什么选蒸馏而非别的加速(见 §2 相关工作):
  • 少步采样器(DDiM/EDM):可变步数,但推理步数一砍质量就掉(DDiM 9 步在 ToolHang 只剩 .14)。
  • 并行采样(ParaDiGMS):用 Picard 迭代并行收敛 ODE 上的点,但显存暴涨;机器人现场算力本就被别的进程占用,实际加速会因 VRAM 受限而缩水,且仍慢于单步
  • 蒸馏:拿预训练教师教学生"迈大步",其中一致性模型这一支既能单步也能多步采样 → 本文采用。

图1a Diffusion Policy:从噪声出发多步去噪出动作序列,部署时推理开销高

图1b Consistency Policy:把一团噪声动作一步直接映射成动作序列,推理远快于 Diffusion Policy 而成功率仍有竞争力

2. 与相关加速路线的关系(取舍)

  • DDPM:解的是反向 SDE(含布朗运动的随机去噪),固定 100+ 步,是 Diffusion Policy 里最慢的框架;但随机性带来多模态(后面局限会回收这一点)。
  • DDiM:可解释为积分确定性 ODE,支持可变步数(训 100 推 15),但少步仍掉质量。
  • EDM[Karras 2022]:同样积分确定性 ODE、允许少步,差别在 preconditioning 和 weighting。本文把教师从 DDPM 换成 EDM,因为 EDM 是一致性蒸馏更常用的多步框架。
  • 一致性蒸馏谱系:Song 等[31] 的 Consistency Models(相邻点、都拉回 s=0)→ Kim 等[14] 的 CTM(任意非相邻点 t,u 拉回任意 s)。本文研究把 CTM 适配到机器人域
  • 同期 RL 工作[4,8] 也用一致性模型做状态控制,但 [8] 用的是 consistency training(用蒙特卡洛估计代替教师、免教师),本文实测它在高维图像策略上成功率不够(见表 X)。
  • 为何只跟 Diffusion Policy 系比:原 Diffusion Policy 已打赢此前所有 IL 基线(含 Behavior Transformer);RT-1/RT-2 等靠大规模预训练、要跑云端,不符合本文"机载受限"设定,故不比。

3. 方法

3.1 预备:扩散的 ODE 视角

  • 学一个把高斯噪声 x_T ~ N(0,I) 映到专家动作 x_0 ~ p0(x|o) 的过程;t∈[0,T],t 大=更噪。
  • 写成概率流 ODE(PFODE)dx_t = [μ(x_t,t) − ½σ(t)²∇log p_t(x_t|o)] dt(式1)。EDM 取 μ=0, σ(t)=√(2t)
  • ∇log p_tscore,不可解 → 用神经网络近似。一步去噪 = 在当前位置算 score 近似 + 数值积分。
  • 采噪声样本:x_t = x + t·εε~N(0,I);送进网络前归一化到单位方差

3.2 教师模型(EDM)

  • 教师 s_φ(x_t,t;o)EDM 训,用来估 PFODE 轨迹导数:dx_t/dt = −(x_t − s_φ(x_t,t;o))/t(式2)。
  • 损失用 Denoising Score Matching(DSM)L_DSM = E[d(x_0, s_φ(x_t,t;o))](式3)。
  • 度量 dpseudo-Huberd(x,y)=√(‖x−y‖² + c²) − c(式4),c = 0.00054·√D(D 为数据维度,沿用 Song[29])。它在 l1/l2 间架桥、比 EDM 原用的 l2 更抗离群
  • 数值积分用 Heun 二阶解法器,时间离散化沿用 EDM。

3.3 学生模型(Consistency Policy)= CTM 蒸馏(图2)

图2 CTM 沿同一条 PFODE(黑)强制自一致:取 0≤s<u<t≤T,教师把 t→u(绿,stopgrad)、学生把 t→s(蓝,唯一回传梯度的一步)、学生把 u→s(橙,stopgrad);再用 stopgrad 学生把两个 s 处的点都拉回时刻 0,二者之差即 L_CTM(红)。实验里 u=t−1、s 取 u 以下任意值最好

  • 学生 g_θ(x_t, t, s; o):输入位置 x_t、时间 t目标停步 s、观测 o,输出对 x_s(更早时刻)的估计。
  • CTM 目标(直觉):同一条 PFODE 上的两点 (x_t,t)(x_u,u) 去噪到同一个 x_s 应当一致。流程:
  • x_s^(t) = g_θ(x_t,t,s;o)(式6,唯一不加 stopgrad、回传梯度的一步
  • x_s^(u) = g_θ(x_u,u,s;o)(式7)
  • 把两者都再用 g_θ(·,s,0;o) 拉回时刻 0,在全去噪动作空间算损失:L_CTM = d(g_θ(x_s^(t),s,0;o), g_θ(x_s^(u),s,0;o))(式5)。
  • 教师怎么提供蒸馏信号:先采 x_t ~ N(0,t²I),再用教师 EDM 走 t−u 步得到 x_u
  • 最终损失L_CP = α·L_CTM + β·L_DSM(式8)。α,β 可调。
  • 采样配方:让 t、u 相邻(即 u=t−1,"local consistency")效果最好(见表 V)。

3.4 推理:单步 vs 3 步

  • 单步(最快):采 z ~ N(0,I),算 x = g_θ(z,T,0;o),直接执行。
  • 关键技巧——降初始方差:采 z~N(0,I) 而非标准的 N(0,T²I),让起点更靠近高斯均值、更在分布内、避免离群(呼应 Pearce[20]:模仿学习里不该把输出推离专家分布高似然中心)。见表 VI。
  • 3 步(更准):链式细化——T→0 去噪,再加噪到 t1、去噪回 0,重复到 t2
  • chaining 步怎么选(关键设计):图像扩散经验[7,11]说早-中段时间步贡献主要特征。本文按离散时间网格等分而非连续时间等分,三步链在 {t_{2N/3}, t_{N/3}}(N=总步数),自动聚焦早-中段。见表 VII。

3.5 实现细节

  • 沿用 Diffusion Policy 的动作序列预测1D 卷积 UNet(FiLM 注入观测+时间步 t)。
  • 学生在 UNet 基础上扩展 FiLM 块以接纳停步 s 的条件;用教师参数热启动,并把扩展的 FiLM 层零初始化避免拖慢热启动收敛。
  • 选 UNet 而非 Diffusion Transformer,理由同 DP:Transformer 更难调超参;本方法与骨干正交,配好的 Transformer 应同样获益。

4. 实验

4.1 设置

  • 6 个仿真任务 / 3 基准:Robomimic(Lift/Can/Square/ToolHang,4 个单臂任务,图像观测,每任务 200 条熟练人演示)、Push-T(状态观测,200 条演示)、Franka Kitchen(状态,566 条演示,长时多阶段)。

图3 Robomimic 四任务(难度递增):Lift、Can、Square、Tool Hang,图像观测

图4 两个状态观测任务:Franka Kitchen(左,长时多阶段、子任务可任意顺序)与 Push-T(右,点力接触密集推 T 块)

  • 基线:Diffusion Policy 的 DDPMDDiM 变体 + ParaDiGMS 并行采样。所有方法共用 UNet 架构、图像编码器、归一化、输入输出格式(2 帧观测:腕部相机图 + 第三人称图 + 末端位姿;输出末端位姿序列)。
  • NFE 口径(关键且偏向基线):以 Number of Function Evaluations 衡量速度。DP 原用 DDPM 100 步、DDiM 15 步;本文把 ParaDiGMS 报告的加速比 3.7×(DDPM)/1.6×(DDiM)折算进去,得 DDPM 100/3.7≈27 NFE、DDiM 15/1.6≈9 NFE(向下取整)——即乐观假设并行加速不掉点,给基线最强待遇。
  • 评测:用最佳 checkpoint 在线评 200 次 rollout 取均值±标准误(同 ParaDiGMS)。Push-T 报目标区域覆盖率。

4.2 仿真主结果(表 I:成功率 / Push-T 覆盖率)

方法 NFE Lift Can Square ToolHang Push-T
DDPM 27 1.00 .97±.01 .93±.02 .79±.03 .87±.03
DDiM 9 1.00 .82±.03 .85±.03 .14±.02 .78±.03
CP(ours) 1 1.00 .98±.01 .92±.02 .70±.03 .82±.03
CP(ours) 3 1.00 .95±.02 .96±.01 .77±.03 .84±.03

单步 CP 在难任务(Square/ToolHang)成功率落在 DDPM 与 DDiM 之间,但快至少一个数量级。3 步 CP 普遍优于单步、与 DDPM 持平,且比 DDiM/DDPM 分别快 3×/9×。Can 上单步(.98)反超 3 步(.95)——简单任务上首步已够好,链式反而可能变差;ToolHang 上 3 步(.77)远超单步(.70)——难任务链式细化空间大。

4.3 Franka Kitchen(表 II:p_x = 完成 ≥x 个物体的频率)

方法 NFE p1 p2 p3 p4
DDPM 27 1.00 1.00 1.00 .98±.01
DDiM 9 1.00 .98±.01 .98±.01 .93±.02
CP(ours) 1 .99±.01 .96±.01 .95±.02 .93±.02
CP(ours) 3 .99±.01 .96±.01 .97±.01 .94±.02

单步 CP 前两阶段强,后期长时阶段略掉(作者承认长时环境里 CP 学不好的机理需进一步探究)。

4.4 仿真推理速度(表 III,NVIDIA P5000,Square,50 rollouts 均值)

方法 NFE 推理时间(ms)
DDPM 100 110
DDiM 15 11
CP(ours) 1 1
CP(ours) 3 2

注意此表用原始 NFE(未折 ParaDiGMS)。单步 CP 1ms,比 DDPM 快约百倍。

4.5 真实世界(3 任务)

  • Trash Clean Up:捡垃圾→放进桶→关盖(图5,10 次试验,随机起点)。
  • Plug Insertion:抓电源适配器→插入插座,接触密集、要精度(图6,20 次,随机起点,图像 256×256)。
  • Microwave移动操作,Kinova Gen3 7-DoF + 全向移动底盘):开微波炉→取西兰花袋→放入→关门→按"蔬菜"键(图7,10 次,静态起点,长时 + 移动底盘控制)。
  • 硬件:前两任务用笔记本单卡 3070 Ti(8GB)推理(ParaDiGMS 因显存跑不动);DDPM 100 步在该卡上约 1.5 秒/前向,故基线选更现实的 DDiM 15 步。动作序列长 16,每步 10D(3D 位置 + 6D 旋转 + 1D 夹爪);微波炉任务动作 13D

图5 Trash Clean Up 真实任务:(1)捡垃圾 (2)放入桶 (3)关盖

表 IV:真实世界结果

任务 DDiM 成功率 DDiM 推理(ms) CP 成功率 CP 推理(ms)
Trash Clean Up 0.8±.13 192 0.8±.13 21
Plug Insertion 0.6±.11 198 0.7±.10 22
Microwave 0.5±.16 0.4±.15

前两任务 CP 成功率持平/略高、延迟约 1/9;移动操作微波炉任务 CP 略低于 DDiM(见局限)。

4.6 消融全表

表 V — 一致性目标(Square):三种目标都保留辅助 DSM 项。

方法 成功率
Consistency Distillation(相邻 t,u;s=0) .88±.02
CTM(任意 t,u,s) .91±.02
CTM-local(ours)(相邻 t,u;任意 s) .92±.02

CTM 与 CTM-local 成功率相近、都略胜 Consistency Distillation;但 CTM 因 t→u 多步教师去噪而训练贵——即便限制 t−u≤10,CTM 仍比另两者慢 40%+(RTX A5000 实测)。故选 CTM-local:同样准、训练快。

表 VI — 初始采样方差(Square)

初始方差 1 步 3 步
1(原始) .9±.02 .91±.02
1/T²(ours,低方差) .92±.02 .96±.01

低方差两种都更好,对 3 步增益更大(步间再加噪能保住表达力/多模态)。

表 VII — chaining 步划分(3 步)

划分方式 Square Tool Hang
离散时间等分(ours) .96±.01 .77±.03
连续时间等分 .94±.02 .72±.03

离散等分在难任务 ToolHang 上明显更好。

表 VIII — 对教师质量的鲁棒性(Square)

教师成功率 学生成功率
.92±.02 .92±.02
.88±.03 .92±.02
.84±.03 .88±.03

教师变差,学生只轻微相关下滑——因为 DSM 项(式3)与教师无关能托底。对"现场没法充分测教师"的部署很友好。

表 IX — 去掉 s→0 段的 dropout(Square)

dropout 成功率
启用 .92±.02
仅 s→0 段禁用 .86±.03

反直觉发现:dropout 在 CTM 目标里贡献了大部分一致性信号。机理:热启动后 g_θ 太强,x_s^(t)x_s^(u) 即便不在同一轨迹也会被 s→0 段拉到几乎相同输出 → L_CTM 趋零、无信号(实测无 dropout 时 d(x_s^(t),x_s^(u)) 比拉回 0 后的差大两个数量级以上)。dropout 让 s→0 段不再确定性、迫使损失直接约束 d(x_s^(t),x_s^(u)) 自一致。全文 dropout=0.2

表 X — Consistency Training(免教师,单步)

方法 Lift Square
CT Policy([8] 风格,蒙特卡洛代教师) .91±.02 .55±.04
CP(ours) 1.0 .92±.02

免教师的 consistency training 在简单 Lift 尚可,高维难任务 Square 崩到 .55——证明在图像策略上蒸馏 > 免教师训练

表 XI(附录 A)— 真实推理时间拆解(3070 Ti)

方法 图像编码(ms) 网络前向(ms) 总推理(ms)
DDiM 6 179 192
CP(ours) 6 13.5 21

总加速 ,但网络部分加速 13.3×(接近 15× 的步数比);总加速被图像编码、数据搬运等固定开销拉低。策略网络占比越大,本方法越划算。

4.7 附录 B — 低方差采样的机理探究

作者在 CIFAR-10 上跑 EDM 验证:低方差初始区在图像域几乎无学到的 support(生成出灰块,图8),高方差区正常(图9)。猜测:机器人动作维度(h×10,h=动作时域)远低于图像(32×32×3),按流形假设动作流形更低维,score 模型只在足够低维流形上才支持低方差中心区;高维高斯质量集中在边缘、中心 support 弱。这解释了"降初始方差"为何对机器人有效、对图像可能无效

5. 局限 / 存疑(作者诚实点的 + 精读补充)

  • 牺牲多模态:DDPM 的多模态来自积分 SDE(随机);EDM/CTM 学的是确定性 ODE,蒸馏后教师 EDM 与学生 CP 都丢了部分多模态(Push-T 上偏向一侧)。作者称在标准评测任务上没受伤,未来想用更复杂采样找回多模态。→ 与 详读-DiffusionPolicy 强调的"多模态是扩散策略卖点"形成直接张力。
  • 训练不如 DP 稳:一致性目标自指(式5),训练略不稳。
  • 训练更慢:CP 要先训教师、每步还要跑教师 + 多次学生前向;达到 DP 同等性能需更多 epoch、更长每 epoch,难任务(微波炉)尤甚。用推理时间换训练时间
  • 移动操作偏弱:微波炉任务 CP(.4) < DDiM(.5);且作者坦承因时间限制没把 CP 训到收敛
  • 长时任务后期掉点(表 II p3/p4)机理未明。
  • 基线口径偏向自己有利也偏向基线:把 ParaDiGMS 加速乐观地折进 DDPM/DDiM 的 NFE(假设并行不掉点),是"给基线最强待遇"——结论"仍快一个数量级"因此更稳。

6. 核心洞见

  • 加速扩散策略最实用的一招 = 蒸馏成单步,且与具体扩散策略形式正交——理论上 Octo 这类扩散策略也能照样蒸馏成单/少步(作者列为未来方向)。
  • 三个让它真正 work 的工程决策:① 一致性目标用 CTM-local(同 CTM 准、训练快 40%);② 降初始方差到 1/T²(更在分布内);③ 离散时间等分的预设 chaining(早-中段聚焦、开箱即用,免去每任务调链步)。
  • dropout 的意外角色:在 CTM 里它不是防过拟合,而是一致性信号的主要来源——一个值得别的蒸馏工作注意的反直觉机理。
  • 对教师质量鲁棒(DSM 托底):实践上不必反复挑最优教师,降低部署门槛。

7. 🗣️ 外部评价

  • 🌐 正式发表于 RSS 2024(Robotics: Science and Systems,机器人顶会,经同行评审):官方论文 PDFarXiv abs。RSS 不公开评审意见,未检索到公开的逐条 review 文本(如实记录)。
  • 🌐 被后续工作当作"单步/少步策略"的代表基准引用:如 ConRFT(用 consistency policy 做 VLA 强化微调,arXiv 2502.05450)、One-Step Flow Policy Mirror Descent(arXiv 2507.23675)、OMP One-step MeanFlow Policy(arXiv 2512.19347)等都把它列为"扩散策略一步化"的参照点。
  • 🌐 收录于多个机器人论文阅读清单(如 YanjieZe/Paper-List)。
  • 🧑(精读者 ding 看法):方法本身是把图像生成成熟技术(CTM)干净地搬到机器人域,贡献偏"适配 + 工程决策 + 机理观察"而非全新理论;卖点是"实测能在笔记本 GPU 实时"这件落地事,证据扎实(9 任务 + 全消融 + 真实部署),但多模态损失训练更慢是后续流匹配单步路线(如 MeanFlow Policy)想绕开的点。

8. 🧑‍⚖️ 审稿人视角(🤖)

  • 新颖性中等:CTM[14]、EDM[13]、低方差采样思路均来自图像域;核心增量是"适配机器人 + 三个设计决策 + dropout 机理"。作者也坦诚定位为 adaptation,没硬吹。
  • 实验充分:6 仿真 + 3 真实 + 8 张消融表,且对教师质量鲁棒性这种"部署相关"问题做了专门实验,加分。
  • 基线口径需警惕但处理得当:把 ParaDiGMS 加速折进 NFE 是"乐观给基线",明确写出,结论不被夸大。
  • 可改进:① Push-T 多模态丢失只定性提及,缺定量(如模式覆盖率);② 移动操作任务"没训到收敛"使该结论说服力打折;③ 单步在 ToolHang(.70) 明显弱于 DDPM(.79),"competitive"措辞略宽松。
  • 可复现性高:开源代码 + 项目页 + 沿用 DP 基础设施 → 证据等级 A。

9. 对我们

  • 扩散/流策略提速"两条路"的蒸馏代表:与 卡片-AdaFlow(方差自适应 ODE、按需调步、免蒸馏)构成对照——一个训练期蒸馏成定步单步、一个推理期自适应变步。两条路都为"把生成式策略上实时控制"服务。
  • 母本是 详读-DiffusionPolicy:本工作把 DP 当教师,读懂 DP 的 receding-horizon / 动作序列 / UNet 设计是读懂本文的前提;本文把 DP 的"慢"这一局限(DP 详读 §7 已点名指向"Consistency/一步扩散")真正补上。
  • 可借的工程招式:① 教师→单步学生蒸馏流程可直接套我们自己的扩散/流策略;② 降初始方差到 1/T² 是低成本即插即用的推理改进;③ 离散时间等分 chainingCTM-local 都是省调参的默认配方;④ dropout 作为一致性信号来源这一观察,提醒蒸馏时别随手关 dropout。
  • 与流匹配单步路线对照:本文的"丢多模态 + 训练慢"正是后续 MeanFlow / 一步流策略(卡片-AdaFlow 之外)想改进的靶子,值得把它作为"蒸馏路线基线"长期对照。