type: 详读（中文全文摘要） domain: 控制·小脑 / 触觉对应卡片: 卡片-ReactiveDiffusionPolicy arxiv: "2503.02881" 来源: 全文精读(arXiv txt 正文 v3)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-07-04

详读 · Reactive Diffusion Policy：慢-快视触觉模仿学习（SJTU+清华 IIIS，2025）¶

一、问题与核心主张¶

问题：人做接触密集任务(削菜)靠视觉+触觉，能快速响应外部变化、自适应控制接触力；机器人难。已有视觉模仿学习(Diffusion Policy/ACT/π0)用 action chunking 建复杂轨迹，但执行动作块时是开环、无法即时响应实时触觉；且多数遥操作给不了细粒度触觉反馈，限制可采任务类型。
主张(受神经科学启发：前馈预测 + 感觉反馈闭环微调)：两件套——① TactAR 低成本遥操作，通过 AR 实时给触觉/力反馈；② RDP 慢-快模仿学习，保留 action chunking 优点、又能在块执行中基于触觉做高频闭环。

二、方法¶

TactAR 遥操作¶

用 Meta Quest 头显，把触觉/力反馈实时可视化在 AR 里；支持多传感器(GelSight Mini / MCTac / 力)、双臂、末端位姿控制。→ 采到"带细粒度触觉反馈"的高质演示。

RDP 慢-快两级层次¶

慢策略 @1-2Hz：隐空间扩散策略，预测高层动作块(在 latent space)——擅长复杂轨迹、多模态、对非马尔可夫行为(停顿/振荡)鲁棒。
快策略 @>20Hz：非对称 tokenizer，据高频触觉/力反馈做闭环控制 + 潜动作块修正(latent action chunk correction) → 快速反应式行为。
统一框架里同时得到"复杂轨迹建模 + 快速反应"。

三、关键结果（📄）¶

3 个接触密集任务，RDP 显著超 SOTA 视觉模仿学习基线。
跨不同触觉/力传感器都适用(GelSight Mini/MCTac/力)。

四、局限（🤖 读后判断）¶

依赖 TactAR(Quest+触觉硬件)采数据；只 3 个任务，规模有限。
慢-快两级的频率/接口需按任务调；隐空间修正的可解释性有限。

五、开源 / 出处¶

arXiv 2503.02881 v3(2025)；上海交大 + 清华 IIIS + 上海期智 + 上海 AI Lab + 上海创新研究院。代码/视频 reactive-diffusion-policy.github.io。

六、对我们（精读后判断，🤖）¶

"慢-快双频"架构正对本库控制回路主题（控制回路与频率-动态视图、概念-实时控制与力控）：慢策略=大脑级低频复杂规划、快策略=小脑级高频触觉闭环——是"大脑出块、小脑高频跟踪+触觉反应"的一个具体落地。
与卡片-T-Rex(触觉做高频反应专家)同一思路谱：都把"触觉快环"独立成高频组件；RDP 用隐空间扩散慢策略 + 非对称 tokenizer 快修正，T-Rex 用反应式专家。可对照两种实现。
TactAR(AR 触觉反馈遥操作)对我们 projects/ 的数据采集线有直接参考——低成本给触觉反馈是采高质接触数据的关键。
与卡片-TacForeSight/概念-隐空间与潜动作学习呼应：慢策略在隐空间出动作块、快策略做隐修正——又一个"隐空间+触觉"的组合点。