type: 详读(中文全文摘要) domain: 控制·小脑 / 触觉 对应卡片: 卡片-ReactiveDiffusionPolicy arxiv: "2503.02881" 来源: 全文精读(arXiv txt 正文 v3),🤖Claude 摘译,关键数字📄来自正文 date: 2026-07-04
详读 · Reactive Diffusion Policy:慢-快视触觉模仿学习(SJTU+清华 IIIS,2025)¶
一、问题与核心主张¶
- 问题:人做接触密集任务(削菜)靠视觉+触觉,能快速响应外部变化、自适应控制接触力;机器人难。已有视觉模仿学习(Diffusion Policy/ACT/π0)用 action chunking 建复杂轨迹,但执行动作块时是开环、无法即时响应实时触觉;且多数遥操作给不了细粒度触觉反馈,限制可采任务类型。
- 主张(受神经科学启发:前馈预测 + 感觉反馈闭环微调):两件套——① TactAR 低成本遥操作,通过 AR 实时给触觉/力反馈;② RDP 慢-快模仿学习,保留 action chunking 优点、又能在块执行中基于触觉做高频闭环。
二、方法¶
TactAR 遥操作¶
- 用 Meta Quest 头显,把触觉/力反馈实时可视化在 AR 里;支持多传感器(GelSight Mini / MCTac / 力)、双臂、末端位姿控制。→ 采到"带细粒度触觉反馈"的高质演示。
RDP 慢-快两级层次¶
- 慢策略 @1-2Hz:隐空间扩散策略,预测高层动作块(在 latent space)——擅长复杂轨迹、多模态、对非马尔可夫行为(停顿/振荡)鲁棒。
- 快策略 @>20Hz:非对称 tokenizer,据高频触觉/力反馈做闭环控制 + 潜动作块修正(latent action chunk correction) → 快速反应式行为。
- 统一框架里同时得到"复杂轨迹建模 + 快速反应"。
三、关键结果(📄)¶
- 3 个接触密集任务,RDP 显著超 SOTA 视觉模仿学习基线。
- 跨不同触觉/力传感器都适用(GelSight Mini/MCTac/力)。
四、局限(🤖 读后判断)¶
- 依赖 TactAR(Quest+触觉硬件)采数据;只 3 个任务,规模有限。
- 慢-快两级的频率/接口需按任务调;隐空间修正的可解释性有限。
五、开源 / 出处¶
- arXiv 2503.02881 v3(2025);上海交大 + 清华 IIIS + 上海期智 + 上海 AI Lab + 上海创新研究院。代码/视频 reactive-diffusion-policy.github.io。
六、对我们(精读后判断,🤖)¶
- "慢-快双频"架构正对本库控制回路主题(控制回路与频率-动态视图、概念-实时控制与力控):慢策略=大脑级低频复杂规划、快策略=小脑级高频触觉闭环——是"大脑出块、小脑高频跟踪+触觉反应"的一个具体落地。
- 与 卡片-T-Rex(触觉做高频反应专家)同一思路谱:都把"触觉快环"独立成高频组件;RDP 用隐空间扩散慢策略 + 非对称 tokenizer 快修正,T-Rex 用反应式专家。可对照两种实现。
- TactAR(AR 触觉反馈遥操作)对我们
projects/的数据采集线有直接参考——低成本给触觉反馈是采高质接触数据的关键。 - 与 卡片-TacForeSight/概念-隐空间与潜动作学习 呼应:慢策略在隐空间出动作块、快策略做隐修正——又一个"隐空间+触觉"的组合点。