跳转至

type: 详读(中文全文摘要) domain: 控制·小脑 / 触觉 对应卡片: 卡片-ReactiveDiffusionPolicy arxiv: "2503.02881" 来源: 全文精读(arXiv txt 正文 v3),🤖Claude 摘译,关键数字📄来自正文 date: 2026-07-04


详读 · Reactive Diffusion Policy:慢-快视触觉模仿学习(SJTU+清华 IIIS,2025)

一、问题与核心主张

  • 问题:人做接触密集任务(削菜)靠视觉+触觉,能快速响应外部变化、自适应控制接触力;机器人难。已有视觉模仿学习(Diffusion Policy/ACT/π0)用 action chunking 建复杂轨迹,但执行动作块时是开环、无法即时响应实时触觉;且多数遥操作给不了细粒度触觉反馈,限制可采任务类型。
  • 主张(受神经科学启发:前馈预测 + 感觉反馈闭环微调):两件套——① TactAR 低成本遥操作,通过 AR 实时给触觉/力反馈;② RDP 慢-快模仿学习,保留 action chunking 优点、又能在块执行中基于触觉做高频闭环

二、方法

TactAR 遥操作

  • 用 Meta Quest 头显,把触觉/力反馈实时可视化在 AR 里;支持多传感器(GelSight Mini / MCTac / 力)、双臂、末端位姿控制。→ 采到"带细粒度触觉反馈"的高质演示。

RDP 慢-快两级层次

  • 慢策略 @1-2Hz隐空间扩散策略,预测高层动作块(在 latent space)——擅长复杂轨迹、多模态、对非马尔可夫行为(停顿/振荡)鲁棒。
  • 快策略 @>20Hz非对称 tokenizer,据高频触觉/力反馈做闭环控制 + 潜动作块修正(latent action chunk correction) → 快速反应式行为。
  • 统一框架里同时得到"复杂轨迹建模 + 快速反应"。

三、关键结果(📄)

  • 3 个接触密集任务,RDP 显著超 SOTA 视觉模仿学习基线。
  • 跨不同触觉/力传感器都适用(GelSight Mini/MCTac/力)。

四、局限(🤖 读后判断)

  • 依赖 TactAR(Quest+触觉硬件)采数据;只 3 个任务,规模有限。
  • 慢-快两级的频率/接口需按任务调;隐空间修正的可解释性有限。

五、开源 / 出处

  • arXiv 2503.02881 v3(2025);上海交大 + 清华 IIIS + 上海期智 + 上海 AI Lab + 上海创新研究院。代码/视频 reactive-diffusion-policy.github.io。

六、对我们(精读后判断,🤖)

  • "慢-快双频"架构正对本库控制回路主题控制回路与频率-动态视图概念-实时控制与力控):慢策略=大脑级低频复杂规划、快策略=小脑级高频触觉闭环——是"大脑出块、小脑高频跟踪+触觉反应"的一个具体落地。
  • 卡片-T-Rex(触觉做高频反应专家)同一思路谱:都把"触觉快环"独立成高频组件;RDP 用隐空间扩散慢策略 + 非对称 tokenizer 快修正,T-Rex 用反应式专家。可对照两种实现。
  • TactAR(AR 触觉反馈遥操作)对我们 projects/ 的数据采集线有直接参考——低成本给触觉反馈是采高质接触数据的关键。
  • 卡片-TacForeSight/概念-隐空间与潜动作学习 呼应:慢策略在隐空间出动作块、快策略做隐修正——又一个"隐空间+触觉"的组合点。