跳转至

详读 · TacForeSight(力引导的触觉世界模型,用于接触密集操作)

卡片版见 卡片-TacForeSight。本页是全文精读:动机 → 方法(逐模块公式直觉) → 实验(全表) → 洞见/局限 → 对我们。 来源:arXiv 2606.11184(2026-06-09,6页 RA-L/会议体例)· 项目页 作者:Yujie Zang、Yuhang Zheng、Xian Nie(共一)等,通讯 Shuicheng Yan(颜水成, NUS)+ Wenchao Ding(丁文超, 复旦)。单位:TARS Robotics · 新加坡国立 NUS · 上海交大 · 中科院自动化所 · 复旦

0. 一句话定位

抓住一个时序非对称规律——手腕 6 轴力/力矩(wrench)的变化比指尖触觉早一拍——把"先到的力"当条件去预测"还没到的触觉",在一个压缩隐空间里推演短时未来触觉,再把这个"前瞻接触先验"喂给策略,让机器人在接触密集任务里前瞻控制而非被动反应。全系统极小(世界模型 11.8M + 策略 68.9M)、实时(20Hz / RTX4090D)。

1. 问题与动机(图1)

图1 左:腕部 wrench 与双指触觉互补(全局/局部),且接触切换时力变化先于触觉响应;中:相比"力-触觉并联融合"的旧法,TacForeSight 预测"力条件下的触觉演化"给出前瞻先验;右:5 个真机接触密集任务

  • 接触密集操作的痛点:执行中接触力、局部几何、物体位姿的微小变化会迅速改变交互状态 → 打滑(slippage)、错位(misalignment)、失接触(contact loss)。要做好必须持续感知并调节正在演化的物理交互。
  • 旧法的局限:近年模仿学习把触觉/腕力塞进视觉运动策略,但要么把力和触觉当两个模态硬融合成联合表征,要么当被动反馈做反应式控制。它们没有显式建模"全局力"与"局部触觉"在时空上的非对称角色——
  • 腕部 wrench:高频(120Hz)、给全局外载变化线索;
  • 光学触觉:捕捉细粒度局部形变。
  • 关键观察(核心切入):在 Bulb Insertion & Locking(灯泡插入锁定) 中,腕部 wrench 的突变一致地早于指尖触觉响应出现 → 存在一个 coarse-to-fine 的时序依赖:全局力是未来触觉状态的领先指标(leading indicator)
  • 类比人类感觉运动控制:人用"载荷相关线索"去预判物体交互状态、引导局部接触微调(文献 Johansson & Flanagan)。作者据此显式建模 force→tactile 的预测过程

2. 核心思想

不是"提高触觉分辨率"或"更强的融合",而是把跨模态因果(力先于触觉)做成一个预测环: 1. 用高频腕力作条件,在隐空间预测短时未来触觉潜变量(世界模型 TacForceWM); 2. 把"当前触觉 + 预测的未来触觉"通过 cross-attention 建成当前↔未来交互,得到"前瞻触觉表征"; 3. 用这个前瞻表征门控(gating)视触觉融合——接触/扰动时放大触觉通道; 4. flow-matching 动作头据融合特征输出动作 chunk。

整个推演只在低维隐空间进行(不渲染高维触觉图、不做像素级视频生成) → 这是它能做到实时 20Hz 的根本原因。

3. 总体架构(图2)

图2 两阶段框架。Stage1:力条件触觉世界模型(触觉 tokenizer + 力编码器 + 隐动力预测器)把双指触觉编成紧凑隐变量并据腕力预测演化;Stage2:把预测的触觉动力学当接触先验,喂给轻量 flow-based 策略

级联式(cascaded):Stage1 先预训练力条件世界模型预测短时触觉演化 → 冻结触觉编码器与预测器 → Stage2 用其隐表征做 flow-matching 动作序列预测。

4. 方法详解

4.1 触觉 Tokenizer(把形变图压成一个 token)

  • 输入:每指触觉场 X_t^s ∈ R^{H×W×3}s∈{L,R},3 通道是每个空间位置的 3D marker 位移(稠密形变)。实测分辨率 35×20
  • 共享空间编码器 Φ_sp(残差卷积 + 分层下采样)抽局部形变特征 F_t^s左右指共享权重
  • 可学空间位置嵌入 E_pos + 手指身份嵌入 E_id^s(区分左右指角色)。
  • 展平成 patch token,前置 [CLS],对拼接的左右指 token 跑 Transformer(指内空间模式 + 指间交互依赖),取 [CLS]帧级触觉隐变量 z_t ∈ R^{D_z} —— 一帧手内交互状态的紧凑表示。

4.2 力编码器(把 120Hz 力对齐成触觉的条件)

  • 输入 6 轴 wrench 序列 w_{t-nH:t} ∈ R^{nH×6}(采样率是触觉的 n 倍)。
  • 先投影到隐空间,再用 dilated causal 1D 卷积(WaveNet 式)抓多尺度时序力变化,因果下采样把高频力特征对齐到触觉隐序列:c_{t-H:t} = G_φ(w_{t-nH:t})
  • 直觉:保持时间因果性(只用过去),把连续 wrench 模式翻译成"对触觉演化有物理信息量"的条件流。

4.3 隐动力预测器(chunk 式预测未来触觉)

  • 关键设计:预测未来隐变量而非重建原始触觉(借 V-JEPA 思路,省算力),且chunk 式(一次预测一段)而非逐帧单步 → 时序更连贯。
  • 给当前触觉隐 chunk z_{t-H:t} 与对齐力条件 c_{t-H:t},预测带时间偏移 Δ 的未来 chunk: ẑ_{t-H+Δ:t+Δ} = T_ψ(z_{t-H:t}, c_{t-H:t})T_ψ 是力条件隐 Transformer。
  • 力条件经 AdaLN(自适应层归一化)注入(DiT 式)——按当下 wrench 上下文调制中间特征。直觉:力不是简单拼接进去,而是"调相机参数式"地改写每层归一化,使预测随力实时变。

4.4 世界模型训练目标

  • 预测损失同时监督绝对未来隐与其一阶时序差分(抓演化趋势、防止预测过平滑): L_pred = MSE(Ẑ, Z) + λ_dyn · MSE(∇Ẑ, ∇Z),∇ 是 chunk 维一阶差分,λ_dyn=1.00
  • 防表征坍塌:借 LeJEPA 的 SIGReg(Sketched Isotropic Gaussian Regularizer),把触觉隐分布正则到各向同性高斯,λ_sig=0.09
  • 总目标:L_WM = L_pred + λ_sig · L_sig

4.5 预测式触觉条件策略(Stage2)

  • 多模态特征抽取:冻结 DINOv2-small 编 RGB → h_t^img;本体历史 s_{t-K+1:t} 经 MLP → h_t^s;触觉 tokenizer 编近 H 帧 → z_{t-H:t}冻结的世界模型据此+力特征预测未来触觉 Ẑ_t
  • 当前↔未来触觉交互(cross-attention):分别给当前/未来隐加可学时间嵌入,以当前隐作 Query、预测未来隐作 Key/Value 做 CA,残差结构把"当下接触状态"用"预测动力学"增强,再时间维平均得紧凑前瞻触觉表征 h_t^tac
  • 自适应视触觉门控融合(逐通道,非 token 级):α = σ(MLP(h_t^tac))h_t^vt = (1-α)⊙h_t^img + α⊙h_t^tac。直觉:门控由触觉算出,接触/动态时放大触觉、平稳时偏视觉,避免触觉噪声污染。
  • flow-matching 动作头:融合特征 h_t^vt + 本体 h_t^s 拼成全局条件 y_t;线性插值路径 A_t^(τ)=(1-τ)A^(0)+τA^(1),时序 U-Net v_θ 学速度场 L_FM = E‖v_θ(A^(τ),τ,y_t) - u_t‖²;推理从噪声积分 ODE(τ:0→1)得动作 chunk。

5. 实验

5.1 设置

  • 平台:7-DoF UFactory xArm7 + Robotiq 2F-85 夹爪 + 腕装 RealSense D435 + UFactory 6 轴力/力矩传感器 + 双指各一 Xense 光学触觉。图像/触觉 30Hz,腕 wrench 120Hz,触觉输出 35×20 3D 位移图
  • 训练:世界模型 11.8M 参数、2700 条力-触觉交互 episode(任务演示 + 多样接触数据)、150k steps、λ_dyn=1.00 / λ_sig=0.09;冻结后训 flow-matching 策略 68.9M 参数;8× A100。推理 20Hz / RTX4090D
  • 基线DP(Diffusion Policy, 仅腕 RGB+本体)、DP+Tactile+Force(DP 多模态扩展)、KineDex(触觉感知、联合预测动作+触觉)、FoAR(力感知 + 未来接触预测器,公平起见点云编码器换 2D RGB)、RDP(Reactive Diffusion Policy,反应式视触觉在线精修)。
  • 指标:每法每任务 20 次独立 trial,报平均完成分。Wiping/Swiping = 完成长度/目标长度;Tube Adjustment/Bulb Locking 两阶段(过一阶 50%、全过 100%);Wire Insertion 全插入才算成功;扰动设置下必须从扰动恢复并完成才算成功。

5.2 任务(图3)

图3 五个核心接触密集任务:花瓶擦拭(Wiping)、刷卡(Swiping)、试管调整与插入(Adjustment)、灯泡插入与锁定(Locking)、插线(Insertion);及三个执行中扰动设置(Wiping-P 高度扰动 / Swiping-P 角度扰动 / Adjustment-P 位姿扰动)

5.3 主结果(表I:完成分%,每格 20 trials)

策略 Wiping Swiping Adjustment Locking Insertion Wiping-P Swiping-P Adjustment-P
DP 70 35 30 10 15 0 0 0
DP+Tactile+Force 80 40 35 30 15 25 0 35
KineDex 30 35 25 45 30 10 0 0
FoAR 50 50 35 25 20 30 0 25
RDP 85 50 25 55 0 35 65 0
Ours(TacForeSight) 100 85 70 80 60 90 85 85
  • 5 个常规任务平均 79.0%,全面大幅超基线;最难的 Wire Insertion 它 60% 而 RDP 直接 0%。
  • 三个扰动任务平均 86.7%(90/85/85),优势在扰动下更明显——预测式触觉先验提升了"接触动态变化时的恢复鲁棒性"。多数基线在扰动列大量挂零(尤其 Swiping-P 仅 RDP 65%、其余全 0)。

5.4 触觉表征分析(图4)

图4 触觉隐表征分析。(a) 灯泡插入锁定与花瓶擦拭中触觉隐的时序可视化(当前/预测未来/二者差,投到 PCA);(b) 不同基元交互(按压/扭转/滑动)的触觉隐 t-SNE

  • 时序前瞻:预测的未来触觉隐在接触状态切换前约 200ms 就出现接触相关变化,隐差异在关键接触阶段切换处显著 → 世界模型确实抓到时序接触演化、给出前瞻线索。
  • 判别性:在未见过的 force-tactile episode(按压/扭转/滑动)上,触觉编码器抽的序列级嵌入在 t-SNE 里按接触模式形成清晰分簇 → 学到了超出训练分布的接触判别表征。

5.5 消融一:世界模型用什么作条件(表II)

条件 MSE↓ Cos↑ KL_sym↓
w/o Condition 0.027 0.954 0.014
RGB Image 0.025 0.973 0.013
Robot State 0.022 0.975 0.011
Wrist Wrench 0.017 0.992 0.009

腕力条件三项指标全胜:相比无条件,MSE 0.027→0.017、KL_sym 0.014→0.009、Cos 0.954→0.992。说明腕 wrench 是预测触觉演化信息量最高的物理条件(它直接捕捉接触中的物理交互变化),胜过 RGB 和机器人状态。

5.6 消融二:策略各组件(表III:完成分%,20 trials)

变体 Wiping Wiping-P Swiping-P
Parallel fusion(力-触觉直接并联) 80 25 10
w/o force condition 70 50 75
w/o predicted tactile 65 15 15
w/o cross-attention 100 65 0
w/o adaptive gate 90 65 75
Ours 100 85 90
  • 去掉预测触觉(只用当前触觉)在两个扰动任务上重挫(15/15) → 未来触觉先验对"维持/恢复接触"关键。
  • Parallel fusion 扰动下很差(25/10) → 简单力-触觉拼接不足以鲁棒恢复。
  • 去 cross-attention 在 Swiping-P 直接 0% → 显式当前↔未来交互重要。
  • 去自适应门控:Wiping-P 降到 65%,且恢复时间从 2.56s 增到 4.06s → 门控改善扰动恢复时的接触调节。
  • 全模型 100/85/90 全项最佳。

6. 诚实读数 / 局限

  • 样本偏小:每格仅 20 trials,5 任务 + 3 扰动,无置信区间/方差报告;任务为作者自选接触密集任务,有挑任务嫌疑,统计强度有限。
  • 承诺开源未落地:项目页声明"models & datasets will be made publicly available",但截至成稿尚未实际放出,无第三方复现/评阅(2026-06 太新)。证据等级 B
  • 硬件门槛:需 2× Xense 光学触觉 + 6 轴 F/T + 视触觉,整套估 ¥8–15 万;触觉传感器易损/需标定。
  • "200ms 前瞻"是 PCA 定性可视化(图4a)结论,非严格量化前瞻精度指标。
  • 基线公平性微调:FoAR 把原点云编码器换成 2D RGB"以求公平"——可能影响其上限。
  • 级联+冻结:世界模型预训练后冻结,未端到端联训,是否最优未消融。

7. 核心洞见

  • 跨模态时序因果是可利用的免费先验:力先于触觉这一非对称性,让"用先到的力预测滞后的触觉"成立——这是别家(并联融合/被动反馈)没显式建模的角度。
  • 隐空间预测 = 前瞻 + 实时的兼得:只在低维隐空间推演(不渲染触觉图/不生成视频),是它在 11.8M+68.9M 小体量下做到 20Hz 的根本,证明"预测式物理推理"可以很轻。
  • 门控由触觉算、按接触阶段变:与 TacVLA/OmniVTA 的 gating 共识一致——接触时放大触觉、平稳偏视觉,是接触密集策略的稳健范式。

8. 对我们

  • 卡片-LaWAM 同构:都是"隐空间预测未来 + 小推演器 + gating",只是 LaWAM 在视觉、它在触觉 → 隐空间世界模型是跨模态可复用范式(详见 TacForeSight×LaWAM-对照)。
  • 它补了 LaWAM 没有的"跨模态因果条件":用先行的力预测滞后的触觉,这个 trick 可搬到我们的多模态推演器(把"先行模态"当 AdaLN 条件)。
  • 可对照方向:视觉侧 卡片-LaWAM 与触觉侧本篇是同构的隐空间预测,对照见 TacForeSight×LaWAM-对照
  • 架构基础对照:AdaLN 条件注入、cross-attention 当前↔未来、flow-matching 动作头都是可复用积木,归入 概念-模型架构基础
  • 互为对照(数据/部署路线):它指尖触觉+力把接触做精;另一类思路用更少/更廉价的力触觉做接触感知,两条路线可长期对照。