跳转至

详读 · FD-VLA(力蒸馏 VLA:推理时不用力/触觉传感器也有"力感知")

卡片版见 卡片-FD-VLA。本页是全文精读:动机 → 方法(逐模块) → 实验(全表) → 洞见/局限 → 对我们。 来源:arXiv 2602.02142(v2,2026-03-20,cs.RO) 作者:Ruiteng Zhao、Wenshuo Wang、Yicheng Ma、Xiaocong Li、Francis E.H. Tay、Marcelo H. Ang Jr.、Haiyue Zhu(通讯) 机构:新加坡国立 NUS 高级机器人中心 + A*STAR SIMTech + 南洋理工 NTU + 宁波东方理工/哈佛。受新加坡 NRP 2.0「制造业领域机器人基础模型」资助。

0. 一句话定位

在 VLA 里加"力"这一模态,但不接力/触觉传感器:用一个力蒸馏模块 FDM,让一个可学查询 token 仅凭图像 + 机器人本体状态通过注意力"检索"出一个预测力 token;训练时用真实力传感器编码的"真力 token"去监督它,推理时丢掉传感器。声称蒸馏出的力 token 反而比直接喂传感器原始力更好

1. 问题与动机

  • 纯视觉 VLA 在真实部署有硬伤:遮挡、光照变化、深度歧义、细微接触效应在图像里都看不清 → 接触密集(contact-rich)任务做不好。
  • 力/触觉是补这一短板最直接的模态(给出接触动力学、顺应性、物理交互),但还很欠开发
  • 前人三条路各有代价(图1):
  • Tactile-VLA:把原始力编码成隐向量,经跨模态对齐层直接融进预训练视觉-语言特征 → 风险是扰乱 VLM 已对齐好的图文语义(模态错配 + 灾难性干扰)。
  • ForceVLA:把力编成专门 token,放在 VLM 之后用 force-aware MoE 融合(后融合保住了 VLM 语义) → 但 MoE 增加训练不稳定 + 推理复杂度,且后融合限制了细粒度的力-视觉-状态交互
  • FD-VLA(本文):用预测的力而非真实力,在 VLM 之前就做一次力-视觉-状态融合 → 既保 VLM 语义,又拿到细粒度早融合,且部署免传感器
  • 另一动机(图3):真实采到的原始力信号本身就脏——有高频噪声 + 低频漂移,直接喂策略未必最优。蒸馏出的隐 token 相当于一个去噪、任务相关的力代理

图1 三种"力 VLA"架构对比:左=Tactile-VLA 直接编码触觉早融合;中=ForceVLA 在 VLM 与动作专家间加 MoE 后融合;右=本文 FD-VLA 用"预测力"替代真实力,得到更好的融合特征且部署免传感器

2. 三条设计原则(作者自述)

  1. 只在训练期用真实力信号做蒸馏监督,得到"预测力 token";
  2. 在 VLM 之前 / 之内 / 之后都尽量做特征级跨模态融合对齐,既保预训练语义先验、又丰富动作表示;
  3. 部署期 sensor-free 推理,让方法能上各种没有力传感器的机器人。

3. 总体框架(图2)

图2 FD-VLA 总框架:训练时真实力经轻量投影编成"真力 token";可学查询 token 注意图像/状态 token 预测出"力 token",用真力 token 监督;推理时仅凭视觉+状态合成力表示,无需触觉硬件。预测力 token 再与语言/图像/状态 token 在冻结 VLM 内融合,动作专家消费融合特征生成动作序列

  • 多模态输入:语言 L、视觉 V_t、机器人状态 S_t、力 F_t(t=时间戳)。
  • 骨干:沿用 SmolVLA,用预训练 SmolVLM-2 + SigLIP 当感知骨干,VLM 内部计算有选择地跳过(省算力)。视觉/语言/状态各经 VLM 分词器+视觉编码器+单层 MLP 投影到隐维 D,得 f^V_t∈R^{Nv×D}f^L∈R^{Nl×D}f^S_t∈R^{Ns×D}
  • 不直接喂原始力:改由 FDM 从实时视觉+状态预测出隐力表示 f^{pF}_t = FDM(f^V_t, f^S_t, p)p∈R^{1×D} 是一个可学习力预测 token。FDM 只在训练期对齐真实力编码 f^{aF}∈R^{1×D},推理期完全不需要力测量。
  • 四模态沿 token 维拼接 f^{fs}_t = [f^V_t, f^L, f^S_t, f^{pF}_t] 送进 VLM。VLM 参数冻结,并用注意力掩码让状态/预测力 token(f^S_t, f^{pF}_t)与核心视觉-语言流解耦,防止干扰预训练语义。
  • 动作专家:transformer 策略头 + 条件流匹配(conditional flow-matching)解码器,把融合特征映射成动作块 [a_t,…,a_{t+H-1}] = π_θ(VLM(f^{fs}_t))

4. 方法详解

4.1 力蒸馏模块 FDM(核心)

  • 核心直觉:力/触觉不是孤立量,而是与本体状态(关节力矩/速度/位置)和视觉(物体形变、空间变化)强相关。既然这些信号大多数机器人上本来就有,就可以从它们反推力 → 省掉物理传感器。附带还提升跨模态融合、过滤原始力的高频噪声。
  • 两支并行分支
  • 真力分支(仅训练用):力传感器原始读数经轻量 MLP 编成 f^{aF}_t,投到与预测力同一嵌入空间,作监督信号。
  • 预测分支:把"力隐变量生成"建模成以视觉-状态为上下文的检索问题,用单个可学查询 p。上下文矩阵 C_t=[p, f^V_t, f^S_t]∈R^{Nc×D}Nc=1+Nv+Ns单查询多头注意力Q=pW_QK=C_t W_KV=C_t W_V
α_t = softmax( (pW_Q)([p,f^V_t,f^S_t]W_K)^T / √d_k )
Z   = α_t V ∈ R^{H×d_k}
f^{pF}_t = FFN( LN([Z_1,…,Z_H]W_O + p) )
  • p 也放进 K/V 里,经残差路径实现"自条件",把学到的接触先验直接注入聚合。
  • 蒸馏损失(特征对齐):

L_dist = ‖ f^{pF}_t − f^{aF}_t ‖²₂

4.2 方向性注意力掩码(关键,借鉴 SmolVLA)

  • 思路:把视觉/语言当冻结感知流,状态/力当控制流,单向放行。
  • 两流:X_percept = {f^V, f^L}(冻结感知),X_control = {f^S, f^{pF}}(控制)。掩码 M∈{0,1}^{Nc×Nc}
M_ij = 1  若 i,j 都是 percept                       (感知内部互看)
M_ij = 1  若 i 是 control 且 j 是 percept            (控制→感知 单向)
M_ij = 1  若 i,j 都是 control 且 i≥j                 (控制内部因果)
M_ij = 0  其它

X'_percept = SelfAttn(X_percept)X'_control = SelfAttn(X_control, X_percept)。 - 效果:感知 token 只能互看 → 保住预训练图文对齐不被污染;控制 token 可看感知 token → 把本体感知+力融进感知上下文供动作预测。这正是它优于 Tactile-VLA"直接早融合污染语义"的关键。

4.3 动作专家(条件流匹配)

  • transformer,预测动作块 A_t=[a_t,…,a_{t+H-1}],条件于 VLM 特征 X_t
  • 流匹配目标:L_τ(θ)=E[‖v_θ(A^τ_t,X_t) − u(A^τ_t|A_t)‖²]A^τ=τA+(1−τ)ε, ε∼N(0,I),向量场目标 u=ε−A_tτ 采自 Beta 分布。学速度场而非逐步残差,契合分块动作预测。

4.4 总损失

L = L_τ(θ) + λ·L_distλ 控制力监督强度(具体取值正文未给,待核)。

图3 插插座任务的原始力可视化:高频噪声 + 低频漂移,作者用来论证"原始力不宜直接喂策略"

5. 实验

5.1 平台与设置(图5)

图5 实机平台:UR5e 机械臂为主操作平台,Azure Kinect 为主相机,RealSense D405 为夹爪相机

  • 硬件UR5e 单臂;Azure Kinect 主 RGB;RealSense D405 夹爪 RGB;力信号取自 UR5e 内置力/力矩传感器(注意:采数阶段仍需此传感器)。
  • 采数:用 3Dconnexion SpaceMouse 遥操作;每任务 50 条专家演示,流程标准化。
  • 评测:每任务用 50 条训练、30 次独立测试;成功判据按任务严格定义(白板:所有可见痕迹全部擦净;急停按钮:完全压下且不回弹;插头:完全到位)。

5.2 任务(图4)

三个接触密集任务:1) 擦白板(全程持续接触、连续运动规划)、2) 按急停按钮(精确竖直下压、需克服弹簧阻力与位置)、3) 插插头(精确对位 + 接合时的受控施力)。

图4 三个真实接触密集任务:1) 擦白板 2) 按急停按钮 3) 把插头插入插座

5.3 主结果(图6,每任务 30 次平均)

图6 三任务成功率柱状图:FD-VLA(橙)对比 SmolVLA、π0(各分有/无力输入)与 DP3

方法 插插座 擦白板 按按钮 均值
SmolVLA(无力) 6.7 33.3 30.0 23.3
SmolVLA(+力) 26.7 50.0 40.0 38.9
DP3 0.0 26.7 6.7 11.1
π0(无力) 6.7 40.0 33.3 26.7
π0(+力) 33.3 46.7 60.0 46.7
FD-VLA(本文) 40.0 73.3 70.0 61.1

(单位 %,读自图6柱状图,与正文算术一致。基线:DP3=参数量与本文相当的强扩散控制基线;π0=约 10× 参数的 SOTA 大 VLA;SmolVLA=本文骨干。所有方法统一训练数据/评测/优化预算。)

  • 擦白板 73.3%,比任何基线至少高 23.3%(次高 SmolVLA+力 50%)。
  • 均值 61.1%:碾压 SmolVLA 无力(23.3)、DP3(11.1),也高于 约 10 倍参数的 π0 无力(26.7)。
  • "原始力不够"的论证:给 SmolVLA 喂原始力涨 15.6%(23.3→38.9),但仍比本文低 22.2%;给 π0 喂原始力涨 20.0%(26.7→46.7),本文仍高 14.4%。→ 直接喂高维噪声力不如蒸馏出的紧凑力表示。

⚠️ 正文一处疑似笔误(待核):正文写 "even π0 without force encoding (46.7%)",但图6 与上下文算术(π0 无力 26.7→+20.0%=46.7 为有力)一致表明 46.7% 是 π0 有力、26.7% 才是 π0 无力。表中按图6/算术取值。

5.4 消融:FDM 的两个开关(表I,每格 成功次数/30)

变体 插插座 擦白板 按按钮 均值
去掉 FDM(直接 MLP 编码力) 8/30 15/30 12/30 38.9
FDM + "真力 token"(用 MLP 编真力替换可学 token) 12/30 17/30 17/30 51.1
FDM + 可学 token(本文) 12/30 22/30 21/30 61.1

(均值单位 %;算术核对:35/90=38.9、46/90=51.1、55/90=61.1,全部吻合。)

  • 加 FDM 就大涨(38.9→51.1):说明早期深度跨模态交互是主要增益来源。
  • 可学 token > 真力 token(61.1 vs 51.1):把可学查询换成"真力编码的隐特征"反而掉点 → 印证"原始力高维且噪声、难被策略有效整合";可学 token 既躲开直喂原始力的坑、又借真力监督保住真实接触信息。
  • 诚实读数:在最难的插插座上,"真力 token"与"可学 token"都是 12/30,可学 token 的增益全部来自擦白板(17→22)和按按钮(17→21),对插插座无额外帮助。

5.5 泛化(图7,仅定性)

两种视觉分布偏移:新背景(布局/纹理与训练不同)、视觉扰动(光照/对比度/彩色灯变化)。作者称两种场景下方法都鲁棒(新背景靠结构线索而非纹理过拟合、光照扰动下平滑适应)。注意:只有定性描述,无成功率数字。

6. 核心洞见

  • 把"力"当成可预测的 token:利用本体状态/视觉形变与接触力的强相关,从"机器人本来就有的模态"里蒸馏出力,而不是去测它。
  • 早融合(VLM 前) + 方向性掩码:既拿到细粒度力-视觉-状态交互,又不污染冻结 VLM 的图文语义——这是对 Tactile-VLA(污染风险)和 ForceVLA(后融合限制交互)的折中。
  • 蒸馏≈去噪正则:学到的隐力是"去噪、任务相关的力代理",所以"预测力 > 原始真力"在小样本评测上成立。

7. 局限 / 存疑(诚实)

  • 规模很小:单臂 UR5e、仅 3 个任务、每任务 50 条演示 / 30 次测试。"预测力胜过真实传感器"这种反直觉结论建立在 30 次 rollout 上,统计噪声不可忽略(可学 vs 真力 token 仅差 9 个 episode:55/90 vs 46/90)。
  • "免传感器"只在推理期:训练/采数仍必须有力传感器打监督标签。所以它降的是部署硬件成本,没降数据采集成本——力标注的数据护城河依旧存在。
  • 最难任务收益有限:插插座本文也只 40%,且可学 token 在该任务相对真力 token 无增益
  • 泛化无定量:图7 只有定性叙述。
  • 复现性待定:文中无项目页 / 代码链接(待核);λH、token 数等超参未在正文给全。
  • 力来自 UR5e 内置 F/T(关节力矩估计),非指尖触觉 → 是"腕/关节级力",不是分布式触觉;对精细多指接触的适用性未验证。

8. 对我们(深一层)

  • 直接撞"免触觉硬件部署"这条线(对照内部 idea3):FD-VLA 比 卡片-Tactile-VLA / ForceVLA / 卡片-VLA-Touch 更激进——推理期连力传感器都不要,纯视觉+状态预测力。和 HapticVLA 一起佐证"免触觉硬件部署"已是明确方向。
  • 详读-DexTeleop-0 互为对照:DexTeleop-0 在采数端加指尖力传感把数据采精;FD-VLA 在部署端省力传感器。但二者都依赖采数阶段的力标注 → 共同指向 概念-机器人数据与标注 里的"力/触觉标注数据稀缺"才是真瓶颈。
  • 机制可借:① "可学查询 token + 单查询注意力"从已有模态检索缺失模态,是通用的跨模态蒸馏套路,可迁去预测我们关心的触觉隐变量;② 方向性注意力掩码(冻结感知流 / 可写控制流)是给冻结 VLM 安全加模态的干净做法,见 概念-模型架构基础
  • 互为对照的实证点:它给出"原始力直喂不如蒸馏力"的小样本证据,呼应 卡片-AdapTac-PredictiveForceAttention(预测式力注意力)——都在说"力信号要先被模型加工成紧凑表示,而非裸喂"。
  • 判断:思路新、骨干轻(SmolVLA)、工程干净;但证据等级偏弱(单臂/3 任务/30 trial、无代码)。结论"预测力>真实力"宜当有趣假设而非定论,可借机制、谨慎引用其数字。