详读 · Consistency Policy（用一致性蒸馏给扩散策略提速一个数量级）¶

卡片版见卡片-ConsistencyPolicy。本页是全文精读：动机 → 方法(逐模块公式直觉) → 实验(全表) → 洞见/局限 → 对我们。来源：arXiv 2405.07503（v2, 2024-06-28，RSS 2024 会议论文）· 项目页 · 代码作者：Aaditya Prasad、Kevin Lin、Linqi Zhou、Jeannette Bohg（斯坦福）+ Jimmy Wu（普林斯顿）。经费来自 Toyota Research Institute。

0. 一句话定位¶

把 Diffusion Policy 当教师，用图像生成里的一致性轨迹模型（CTM）蒸馏出一个单步/3 步的学生策略——推理从 DDPM 的 100 步去噪压到 1 步，在受限笔记本 GPU 上把延迟从约 192ms 降到约 21ms（≈9×），而成功率与 DDPM/DDiM 基本持平。目标场景：移动操作机器人、四旋翼等装不下高端 GPU、又要低延迟决策的平台。三个关键设计：一致性目标的选择（CTM-local）、降低初始采样方差、预设 chaining 步。

1. 问题与动机¶

扩散策略的硬伤 = 推理慢：扩散模型靠反复去噪出动作，每出一个动作要多次前向；步数越少质量越掉。Diffusion Policy 用 DDPM 100 步，在 NVIDIA T4 上约 1 秒/动作（3070Ti 上约 1.5 秒）。
这把扩散策略锁死在准静态任务（简单抓放、装配）；动态任务（平衡物体、动态环境导航）需要更高控制频率；机载算力受限的机器人更跑不动。
目标：保住 Diffusion Policy 的性能，大幅砍掉推理时间。
为什么选蒸馏而非别的加速（见 §2 相关工作）：
少步采样器（DDiM/EDM）：可变步数，但推理步数一砍质量就掉（DDiM 9 步在 ToolHang 只剩 .14）。
并行采样（ParaDiGMS）：用 Picard 迭代并行收敛 ODE 上的点，但显存暴涨；机器人现场算力本就被别的进程占用，实际加速会因 VRAM 受限而缩水，且仍慢于单步。
蒸馏：拿预训练教师教学生"迈大步"，其中一致性模型这一支既能单步也能多步采样 → 本文采用。

图1a Diffusion Policy：从噪声出发多步去噪出动作序列，部署时推理开销高

图1b Consistency Policy：把一团噪声动作一步直接映射成动作序列，推理远快于 Diffusion Policy 而成功率仍有竞争力

2. 与相关加速路线的关系（取舍）¶

DDPM：解的是反向 SDE（含布朗运动的随机去噪），固定 100+ 步，是 Diffusion Policy 里最慢的框架；但随机性带来多模态（后面局限会回收这一点）。
DDiM：可解释为积分确定性 ODE，支持可变步数（训 100 推 15），但少步仍掉质量。
EDM[Karras 2022]：同样积分确定性 ODE、允许少步，差别在 preconditioning 和 weighting。本文把教师从 DDPM 换成 EDM，因为 EDM 是一致性蒸馏更常用的多步框架。
一致性蒸馏谱系：Song 等[31] 的 Consistency Models（相邻点、都拉回 s=0）→ Kim 等[14] 的 CTM（任意非相邻点 t,u 拉回任意 s）。本文研究把 CTM 适配到机器人域。
同期 RL 工作[4,8] 也用一致性模型做状态控制，但 [8] 用的是 consistency training（用蒙特卡洛估计代替教师、免教师），本文实测它在高维图像策略上成功率不够（见表 X）。
为何只跟 Diffusion Policy 系比：原 Diffusion Policy 已打赢此前所有 IL 基线（含 Behavior Transformer）；RT-1/RT-2 等靠大规模预训练、要跑云端，不符合本文"机载受限"设定，故不比。

3. 方法¶

3.1 预备：扩散的 ODE 视角¶

学一个把高斯噪声 x_T ~ N(0,I) 映到专家动作 x_0 ~ p0(x|o) 的过程；t∈[0,T]，t 大=更噪。
写成概率流 ODE（PFODE）：dx_t = [μ(x_t,t) − ½σ(t)²∇log p_t(x_t|o)] dt（式1）。EDM 取 μ=0, σ(t)=√(2t)。
∇log p_t 是 score，不可解 → 用神经网络近似。一步去噪 = 在当前位置算 score 近似 + 数值积分。
采噪声样本：x_t = x + t·ε，ε~N(0,I)；送进网络前归一化到单位方差。

3.2 教师模型（EDM）¶

教师 s_φ(x_t,t;o) 按 EDM 训，用来估 PFODE 轨迹导数：dx_t/dt = −(x_t − s_φ(x_t,t;o))/t（式2）。
损失用 Denoising Score Matching（DSM）：L_DSM = E[d(x_0, s_φ(x_t,t;o))]（式3）。
度量 d 用 pseudo-Huber：d(x,y)=√(‖x−y‖² + c²) − c（式4），c = 0.00054·√D（D 为数据维度，沿用 Song[29]）。它在 l1/l2 间架桥、比 EDM 原用的 l2 更抗离群。
数值积分用 Heun 二阶解法器，时间离散化沿用 EDM。

3.3 学生模型（Consistency Policy）= CTM 蒸馏（图2）¶

图2 CTM 沿同一条 PFODE（黑）强制自一致：取 0≤s<u<t≤T，教师把 t→u（绿，stopgrad）、学生把 t→s（蓝，唯一回传梯度的一步）、学生把 u→s（橙，stopgrad）；再用 stopgrad 学生把两个 s 处的点都拉回时刻 0，二者之差即 L_CTM（红）。实验里 u=t−1、s 取 u 以下任意值最好

学生 g_θ(x_t, t, s; o)：输入位置 x_t、时间 t、目标停步 s、观测 o，输出对 x_s（更早时刻）的估计。
CTM 目标（直觉）：同一条 PFODE 上的两点 (x_t,t)、(x_u,u) 去噪到同一个 x_s 应当一致。流程：
x_s^(t) = g_θ(x_t,t,s;o)（式6，唯一不加 stopgrad、回传梯度的一步）
x_s^(u) = g_θ(x_u,u,s;o)（式7）
把两者都再用 g_θ(·,s,0;o) 拉回时刻 0，在全去噪动作空间算损失：L_CTM = d(g_θ(x_s^(t),s,0;o), g_θ(x_s^(u),s,0;o))（式5）。
教师怎么提供蒸馏信号：先采 x_t ~ N(0,t²I)，再用教师 EDM 走 t−u 步得到 x_u。
最终损失：L_CP = α·L_CTM + β·L_DSM（式8）。α,β 可调。
采样配方：让 t、u 相邻（即 u=t−1，"local consistency"）效果最好（见表 V）。

3.4 推理：单步 vs 3 步¶

单步（最快）：采 z ~ N(0,I)，算 x = g_θ(z,T,0;o)，直接执行。
关键技巧——降初始方差：采 z~N(0,I) 而非标准的 N(0,T²I)，让起点更靠近高斯均值、更在分布内、避免离群（呼应 Pearce[20]：模仿学习里不该把输出推离专家分布高似然中心）。见表 VI。
3 步（更准）：链式细化——T→0 去噪，再加噪到 t1、去噪回 0，重复到 t2。
chaining 步怎么选（关键设计）：图像扩散经验[7,11]说早-中段时间步贡献主要特征。本文按离散时间网格等分而非连续时间等分，三步链在 {t_{2N/3}, t_{N/3}}（N=总步数），自动聚焦早-中段。见表 VII。

3.5 实现细节¶

沿用 Diffusion Policy 的动作序列预测与 1D 卷积 UNet（FiLM 注入观测+时间步 t）。
学生在 UNet 基础上扩展 FiLM 块以接纳停步 s 的条件；用教师参数热启动，并把扩展的 FiLM 层零初始化避免拖慢热启动收敛。
选 UNet 而非 Diffusion Transformer，理由同 DP：Transformer 更难调超参；本方法与骨干正交，配好的 Transformer 应同样获益。

4. 实验¶

4.1 设置¶

6 个仿真任务 / 3 基准：Robomimic（Lift/Can/Square/ToolHang，4 个单臂任务，图像观测，每任务 200 条熟练人演示）、Push-T（状态观测，200 条演示）、Franka Kitchen（状态，566 条演示，长时多阶段）。

图3 Robomimic 四任务（难度递增）：Lift、Can、Square、Tool Hang，图像观测

图4 两个状态观测任务：Franka Kitchen（左，长时多阶段、子任务可任意顺序）与 Push-T（右，点力接触密集推 T 块）

基线：Diffusion Policy 的 DDPM 与 DDiM 变体 + ParaDiGMS 并行采样。所有方法共用 UNet 架构、图像编码器、归一化、输入输出格式（2 帧观测：腕部相机图 + 第三人称图 + 末端位姿；输出末端位姿序列）。
NFE 口径（关键且偏向基线）：以 Number of Function Evaluations 衡量速度。DP 原用 DDPM 100 步、DDiM 15 步；本文把 ParaDiGMS 报告的加速比 3.7×（DDPM）/1.6×（DDiM）折算进去，得 DDPM 100/3.7≈27 NFE、DDiM 15/1.6≈9 NFE（向下取整）——即乐观假设并行加速不掉点，给基线最强待遇。
评测：用最佳 checkpoint 在线评 200 次 rollout 取均值±标准误（同 ParaDiGMS）。Push-T 报目标区域覆盖率。

4.2 仿真主结果（表 I：成功率 / Push-T 覆盖率）¶

方法	NFE	Lift	Can	Square	ToolHang	Push-T
DDPM	27	1.00	.97±.01	.93±.02	.79±.03	.87±.03
DDiM	9	1.00	.82±.03	.85±.03	.14±.02	.78±.03
CP（ours）	1	1.00	.98±.01	.92±.02	.70±.03	.82±.03
CP（ours）	3	1.00	.95±.02	.96±.01	.77±.03	.84±.03

单步 CP 在难任务（Square/ToolHang）成功率落在 DDPM 与 DDiM 之间，但快至少一个数量级。3 步 CP 普遍优于单步、与 DDPM 持平，且比 DDiM/DDPM 分别快 3×/9×。Can 上单步(.98)反超 3 步(.95)——简单任务上首步已够好，链式反而可能变差；ToolHang 上 3 步(.77)远超单步(.70)——难任务链式细化空间大。

4.3 Franka Kitchen（表 II：p_x = 完成 ≥x 个物体的频率）¶

方法	NFE	p1	p2	p3	p4
DDPM	27	1.00	1.00	1.00	.98±.01
DDiM	9	1.00	.98±.01	.98±.01	.93±.02
CP（ours）	1	.99±.01	.96±.01	.95±.02	.93±.02
CP（ours）	3	.99±.01	.96±.01	.97±.01	.94±.02

单步 CP 前两阶段强，后期长时阶段略掉（作者承认长时环境里 CP 学不好的机理需进一步探究）。

4.4 仿真推理速度（表 III，NVIDIA P5000，Square，50 rollouts 均值）¶

方法	NFE	推理时间(ms)
DDPM	100	110
DDiM	15	11
CP（ours）	1	1
CP（ours）	3	2

注意此表用原始 NFE（未折 ParaDiGMS）。单步 CP 1ms，比 DDPM 快约百倍。

4.5 真实世界（3 任务）¶

Trash Clean Up：捡垃圾→放进桶→关盖（图5，10 次试验，随机起点）。
Plug Insertion：抓电源适配器→插入插座，接触密集、要精度（图6，20 次，随机起点，图像 256×256）。
Microwave（移动操作，Kinova Gen3 7-DoF + 全向移动底盘）：开微波炉→取西兰花袋→放入→关门→按"蔬菜"键（图7，10 次，静态起点，长时 + 移动底盘控制）。
硬件：前两任务用笔记本单卡 3070 Ti（8GB）推理（ParaDiGMS 因显存跑不动）；DDPM 100 步在该卡上约 1.5 秒/前向，故基线选更现实的 DDiM 15 步。动作序列长 16，每步 10D（3D 位置 + 6D 旋转 + 1D 夹爪）；微波炉任务动作 13D。

图5 Trash Clean Up 真实任务：(1)捡垃圾 (2)放入桶 (3)关盖

表 IV：真实世界结果¶

任务	DDiM 成功率	DDiM 推理(ms)	CP 成功率	CP 推理(ms)
Trash Clean Up	0.8±.13	192	0.8±.13	21
Plug Insertion	0.6±.11	198	0.7±.10	22
Microwave	0.5±.16	—	0.4±.15	—

前两任务 CP 成功率持平/略高、延迟约 1/9；移动操作微波炉任务 CP 略低于 DDiM（见局限）。

4.6 消融全表¶

表 V — 一致性目标（Square）：三种目标都保留辅助 DSM 项。

方法	成功率
Consistency Distillation（相邻 t,u；s=0）	.88±.02
CTM（任意 t,u,s）	.91±.02
CTM-local（ours）（相邻 t,u；任意 s）	.92±.02

CTM 与 CTM-local 成功率相近、都略胜 Consistency Distillation；但 CTM 因 t→u 多步教师去噪而训练贵——即便限制 t−u≤10，CTM 仍比另两者慢 40%+（RTX A5000 实测）。故选 CTM-local：同样准、训练快。

表 VI — 初始采样方差（Square）：

初始方差	1 步	3 步
1（原始）	.9±.02	.91±.02
1/T²（ours，低方差）	.92±.02	.96±.01

低方差两种都更好，对 3 步增益更大（步间再加噪能保住表达力/多模态）。

表 VII — chaining 步划分（3 步）：

划分方式	Square	Tool Hang
离散时间等分（ours）	.96±.01	.77±.03
连续时间等分	.94±.02	.72±.03

离散等分在难任务 ToolHang 上明显更好。

表 VIII — 对教师质量的鲁棒性（Square）：

教师成功率	学生成功率
.92±.02	.92±.02
.88±.03	.92±.02
.84±.03	.88±.03

教师变差，学生只轻微相关下滑——因为 DSM 项（式3）与教师无关能托底。对"现场没法充分测教师"的部署很友好。

表 IX — 去掉 s→0 段的 dropout（Square）：

dropout	成功率
启用	.92±.02
仅 s→0 段禁用	.86±.03

反直觉发现：dropout 在 CTM 目标里贡献了大部分一致性信号。机理：热启动后 g_θ 太强，x_s^(t)、x_s^(u) 即便不在同一轨迹也会被 s→0 段拉到几乎相同输出 → L_CTM 趋零、无信号（实测无 dropout 时 d(x_s^(t),x_s^(u)) 比拉回 0 后的差大两个数量级以上）。dropout 让 s→0 段不再确定性、迫使损失直接约束 d(x_s^(t),x_s^(u)) 自一致。全文 dropout=0.2。

表 X — Consistency Training（免教师，单步）：

方法	Lift	Square
CT Policy（[8] 风格，蒙特卡洛代教师）	.91±.02	.55±.04
CP（ours）	1.0	.92±.02

免教师的 consistency training 在简单 Lift 尚可，高维难任务 Square 崩到 .55——证明在图像策略上蒸馏 > 免教师训练。

表 XI（附录 A）— 真实推理时间拆解（3070 Ti）：

方法	图像编码(ms)	网络前向(ms)	总推理(ms)
DDiM	6	179	192
CP（ours）	6	13.5	21

总加速 9×，但网络部分加速 13.3×（接近 15× 的步数比）；总加速被图像编码、数据搬运等固定开销拉低。策略网络占比越大，本方法越划算。

4.7 附录 B — 低方差采样的机理探究¶

作者在 CIFAR-10 上跑 EDM 验证：低方差初始区在图像域几乎无学到的 support（生成出灰块，图8），高方差区正常（图9）。猜测：机器人动作维度（h×10，h=动作时域）远低于图像（32×32×3），按流形假设动作流形更低维，score 模型只在足够低维流形上才支持低方差中心区；高维高斯质量集中在边缘、中心 support 弱。这解释了"降初始方差"为何对机器人有效、对图像可能无效。

5. 局限 / 存疑（作者诚实点的 + 精读补充）¶

牺牲多模态：DDPM 的多模态来自积分 SDE（随机）；EDM/CTM 学的是确定性 ODE，蒸馏后教师 EDM 与学生 CP 都丢了部分多模态（Push-T 上偏向一侧）。作者称在标准评测任务上没受伤，未来想用更复杂采样找回多模态。→ 与详读-DiffusionPolicy 强调的"多模态是扩散策略卖点"形成直接张力。
训练不如 DP 稳：一致性目标自指（式5），训练略不稳。
训练更慢：CP 要先训教师、每步还要跑教师 + 多次学生前向；达到 DP 同等性能需更多 epoch、更长每 epoch，难任务（微波炉）尤甚。用推理时间换训练时间。
移动操作偏弱：微波炉任务 CP(.4) < DDiM(.5)；且作者坦承因时间限制没把 CP 训到收敛。
长时任务后期掉点（表 II p3/p4）机理未明。
基线口径偏向自己有利也偏向基线：把 ParaDiGMS 加速乐观地折进 DDPM/DDiM 的 NFE（假设并行不掉点），是"给基线最强待遇"——结论"仍快一个数量级"因此更稳。

6. 核心洞见¶

加速扩散策略最实用的一招 = 蒸馏成单步，且与具体扩散策略形式正交——理论上 Octo 这类扩散策略也能照样蒸馏成单/少步（作者列为未来方向）。
三个让它真正 work 的工程决策：① 一致性目标用 CTM-local（同 CTM 准、训练快 40%）；② 降初始方差到 1/T²（更在分布内）；③ 离散时间等分的预设 chaining（早-中段聚焦、开箱即用，免去每任务调链步）。
dropout 的意外角色：在 CTM 里它不是防过拟合，而是一致性信号的主要来源——一个值得别的蒸馏工作注意的反直觉机理。
对教师质量鲁棒（DSM 托底）：实践上不必反复挑最优教师，降低部署门槛。

7. 🗣️ 外部评价¶

🌐 正式发表于 RSS 2024（Robotics: Science and Systems，机器人顶会，经同行评审）：官方论文 PDF、arXiv abs。RSS 不公开评审意见，未检索到公开的逐条 review 文本（如实记录）。
🌐 被后续工作当作"单步/少步策略"的代表基准引用：如 ConRFT（用 consistency policy 做 VLA 强化微调，arXiv 2502.05450）、One-Step Flow Policy Mirror Descent（arXiv 2507.23675）、OMP One-step MeanFlow Policy（arXiv 2512.19347）等都把它列为"扩散策略一步化"的参照点。
🌐 收录于多个机器人论文阅读清单（如 YanjieZe/Paper-List）。
🧑（精读者 ding 看法）：方法本身是把图像生成成熟技术（CTM）干净地搬到机器人域，贡献偏"适配 + 工程决策 + 机理观察"而非全新理论；卖点是"实测能在笔记本 GPU 实时"这件落地事，证据扎实（9 任务 + 全消融 + 真实部署），但多模态损失和训练更慢是后续流匹配单步路线（如 MeanFlow Policy）想绕开的点。

8. 🧑‍⚖️ 审稿人视角（🤖）¶

新颖性中等：CTM[14]、EDM[13]、低方差采样思路均来自图像域；核心增量是"适配机器人 + 三个设计决策 + dropout 机理"。作者也坦诚定位为 adaptation，没硬吹。
实验充分：6 仿真 + 3 真实 + 8 张消融表，且对教师质量鲁棒性这种"部署相关"问题做了专门实验，加分。
基线口径需警惕但处理得当：把 ParaDiGMS 加速折进 NFE 是"乐观给基线"，明确写出，结论不被夸大。
可改进：① Push-T 多模态丢失只定性提及，缺定量（如模式覆盖率）；② 移动操作任务"没训到收敛"使该结论说服力打折；③ 单步在 ToolHang(.70) 明显弱于 DDPM(.79)，"competitive"措辞略宽松。
可复现性高：开源代码 + 项目页 + 沿用 DP 基础设施 → 证据等级 A。

9. 对我们¶

扩散/流策略提速"两条路"的蒸馏代表：与卡片-AdaFlow（方差自适应 ODE、按需调步、免蒸馏）构成对照——一个训练期蒸馏成定步单步、一个推理期自适应变步。两条路都为"把生成式策略上实时控制"服务。
母本是详读-DiffusionPolicy：本工作把 DP 当教师，读懂 DP 的 receding-horizon / 动作序列 / UNet 设计是读懂本文的前提；本文把 DP 的"慢"这一局限（DP 详读 §7 已点名指向"Consistency/一步扩散"）真正补上。
可借的工程招式：① 教师→单步学生蒸馏流程可直接套我们自己的扩散/流策略；② 降初始方差到 1/T² 是低成本即插即用的推理改进；③ 离散时间等分 chaining、CTM-local 都是省调参的默认配方；④ dropout 作为一致性信号来源这一观察，提醒蒸馏时别随手关 dropout。
与流匹配单步路线对照：本文的"丢多模态 + 训练慢"正是后续 MeanFlow / 一步流策略（卡片-AdaFlow 之外）想改进的靶子，值得把它作为"蒸馏路线基线"长期对照。