详读 · FD-VLA（力蒸馏 VLA：推理时不用力/触觉传感器也有"力感知"）¶

卡片版见卡片-FD-VLA。本页是全文精读：动机 → 方法(逐模块) → 实验(全表) → 洞见/局限 → 对我们。来源：arXiv 2602.02142（v2，2026-03-20，cs.RO）作者：Ruiteng Zhao、Wenshuo Wang、Yicheng Ma、Xiaocong Li、Francis E.H. Tay、Marcelo H. Ang Jr.、Haiyue Zhu(通讯) 机构：新加坡国立 NUS 高级机器人中心 + A*STAR SIMTech + 南洋理工 NTU + 宁波东方理工/哈佛。受新加坡 NRP 2.0「制造业领域机器人基础模型」资助。

0. 一句话定位¶

在 VLA 里加"力"这一模态，但不接力/触觉传感器：用一个力蒸馏模块 FDM，让一个可学查询 token 仅凭图像 + 机器人本体状态通过注意力"检索"出一个预测力 token；训练时用真实力传感器编码的"真力 token"去监督它，推理时丢掉传感器。声称蒸馏出的力 token 反而比直接喂传感器原始力更好。

1. 问题与动机¶

纯视觉 VLA 在真实部署有硬伤：遮挡、光照变化、深度歧义、细微接触效应在图像里都看不清 → 接触密集(contact-rich)任务做不好。
力/触觉是补这一短板最直接的模态(给出接触动力学、顺应性、物理交互)，但还很欠开发。
前人三条路各有代价(图1)：
Tactile-VLA：把原始力编码成隐向量，经跨模态对齐层直接融进预训练视觉-语言特征 → 风险是扰乱 VLM 已对齐好的图文语义(模态错配 + 灾难性干扰)。
ForceVLA：把力编成专门 token，放在 VLM 之后用 force-aware MoE 融合(后融合保住了 VLM 语义) → 但 MoE 增加训练不稳定 + 推理复杂度，且后融合限制了细粒度的力-视觉-状态交互。
FD-VLA(本文)：用预测的力而非真实力，在 VLM 之前就做一次力-视觉-状态融合 → 既保 VLM 语义，又拿到细粒度早融合，且部署免传感器。
另一动机(图3)：真实采到的原始力信号本身就脏——有高频噪声 + 低频漂移，直接喂策略未必最优。蒸馏出的隐 token 相当于一个去噪、任务相关的力代理。

图1 三种"力 VLA"架构对比：左=Tactile-VLA 直接编码触觉早融合；中=ForceVLA 在 VLM 与动作专家间加 MoE 后融合；右=本文 FD-VLA 用"预测力"替代真实力，得到更好的融合特征且部署免传感器

2. 三条设计原则（作者自述）¶

只在训练期用真实力信号做蒸馏监督，得到"预测力 token"；
在 VLM 之前 / 之内 / 之后都尽量做特征级跨模态融合对齐，既保预训练语义先验、又丰富动作表示；
部署期 sensor-free 推理，让方法能上各种没有力传感器的机器人。

3. 总体框架（图2）¶

图2 FD-VLA 总框架：训练时真实力经轻量投影编成"真力 token"；可学查询 token 注意图像/状态 token 预测出"力 token"，用真力 token 监督；推理时仅凭视觉+状态合成力表示，无需触觉硬件。预测力 token 再与语言/图像/状态 token 在冻结 VLM 内融合，动作专家消费融合特征生成动作序列

多模态输入：语言 L、视觉 V_t、机器人状态 S_t、力 F_t(t=时间戳)。
骨干：沿用 SmolVLA，用预训练 SmolVLM-2 + SigLIP 当感知骨干，VLM 内部计算有选择地跳过(省算力)。视觉/语言/状态各经 VLM 分词器+视觉编码器+单层 MLP 投影到隐维 D，得 f^V_t∈R^{Nv×D}、f^L∈R^{Nl×D}、f^S_t∈R^{Ns×D}。
不直接喂原始力：改由 FDM 从实时视觉+状态预测出隐力表示 f^{pF}_t = FDM(f^V_t, f^S_t, p)，p∈R^{1×D} 是一个可学习力预测 token。FDM 只在训练期对齐真实力编码 f^{aF}∈R^{1×D}，推理期完全不需要力测量。
四模态沿 token 维拼接 f^{fs}_t = [f^V_t, f^L, f^S_t, f^{pF}_t] 送进 VLM。VLM 参数冻结，并用注意力掩码让状态/预测力 token(f^S_t, f^{pF}_t)与核心视觉-语言流解耦，防止干扰预训练语义。
动作专家：transformer 策略头 + 条件流匹配(conditional flow-matching)解码器，把融合特征映射成动作块 [a_t,…,a_{t+H-1}] = π_θ(VLM(f^{fs}_t))。

4. 方法详解¶

4.1 力蒸馏模块 FDM（核心）¶

核心直觉：力/触觉不是孤立量，而是与本体状态(关节力矩/速度/位置)和视觉(物体形变、空间变化)强相关。既然这些信号大多数机器人上本来就有，就可以从它们反推力 → 省掉物理传感器。附带还提升跨模态融合、过滤原始力的高频噪声。
两支并行分支：
真力分支(仅训练用)：力传感器原始读数经轻量 MLP 编成 f^{aF}_t，投到与预测力同一嵌入空间，作监督信号。
预测分支：把"力隐变量生成"建模成以视觉-状态为上下文的检索问题，用单个可学查询 p。上下文矩阵 C_t=[p, f^V_t, f^S_t]∈R^{Nc×D}，Nc=1+Nv+Ns。单查询多头注意力：Q=pW_Q，K=C_t W_K，V=C_t W_V：

α_t = softmax( (pW_Q)([p,f^V_t,f^S_t]W_K)^T / √d_k )
Z   = α_t V ∈ R^{H×d_k}
f^{pF}_t = FFN( LN([Z_1,…,Z_H]W_O + p) )

把 p 也放进 K/V 里，经残差路径实现"自条件"，把学到的接触先验直接注入聚合。
蒸馏损失(特征对齐)：

L_dist = ‖ f^{pF}_t − f^{aF}_t ‖²₂

4.2 方向性注意力掩码（关键，借鉴 SmolVLA）¶

思路：把视觉/语言当冻结感知流，状态/力当控制流，单向放行。
两流：X_percept = {f^V, f^L}(冻结感知)，X_control = {f^S, f^{pF}}(控制)。掩码 M∈{0,1}^{Nc×Nc}：

M_ij = 1  若 i,j 都是 percept                       (感知内部互看)
M_ij = 1  若 i 是 control 且 j 是 percept            (控制→感知 单向)
M_ij = 1  若 i,j 都是 control 且 i≥j                 (控制内部因果)
M_ij = 0  其它

即 X'_percept = SelfAttn(X_percept)，X'_control = SelfAttn(X_control, X_percept)。 - 效果：感知 token 只能互看 → 保住预训练图文对齐不被污染；控制 token 可看感知 token → 把本体感知+力融进感知上下文供动作预测。这正是它优于 Tactile-VLA"直接早融合污染语义"的关键。

4.3 动作专家（条件流匹配）¶

transformer，预测动作块 A_t=[a_t,…,a_{t+H-1}]，条件于 VLM 特征 X_t。
流匹配目标：L_τ(θ)=E[‖v_θ(A^τ_t,X_t) − u(A^τ_t|A_t)‖²]，A^τ=τA+(1−τ)ε, ε∼N(0,I)，向量场目标 u=ε−A_t，τ 采自 Beta 分布。学速度场而非逐步残差，契合分块动作预测。

4.4 总损失¶

L = L_τ(θ) + λ·L_dist，λ 控制力监督强度(具体取值正文未给，待核)。

图3 插插座任务的原始力可视化：高频噪声 + 低频漂移，作者用来论证"原始力不宜直接喂策略"

5. 实验¶

5.1 平台与设置（图5）¶

图5 实机平台：UR5e 机械臂为主操作平台，Azure Kinect 为主相机，RealSense D405 为夹爪相机

硬件：UR5e 单臂；Azure Kinect 主 RGB；RealSense D405 夹爪 RGB；力信号取自 UR5e 内置力/力矩传感器(注意：采数阶段仍需此传感器)。
采数：用 3Dconnexion SpaceMouse 遥操作；每任务 50 条专家演示，流程标准化。
评测：每任务用 50 条训练、30 次独立测试；成功判据按任务严格定义(白板：所有可见痕迹全部擦净；急停按钮：完全压下且不回弹；插头：完全到位)。

5.2 任务（图4）¶

三个接触密集任务：1) 擦白板(全程持续接触、连续运动规划)、2) 按急停按钮(精确竖直下压、需克服弹簧阻力与位置)、3) 插插头(精确对位 + 接合时的受控施力)。

图4 三个真实接触密集任务：1) 擦白板 2) 按急停按钮 3) 把插头插入插座

5.3 主结果（图6，每任务 30 次平均）¶

图6 三任务成功率柱状图：FD-VLA(橙)对比 SmolVLA、π0(各分有/无力输入)与 DP3

方法	插插座	擦白板	按按钮	均值
SmolVLA（无力）	6.7	33.3	30.0	23.3
SmolVLA（+力）	26.7	50.0	40.0	38.9
DP3	0.0	26.7	6.7	11.1
π0（无力）	6.7	40.0	33.3	26.7
π0（+力）	33.3	46.7	60.0	46.7
FD-VLA（本文）	40.0	73.3	70.0	61.1

（单位 %，读自图6柱状图，与正文算术一致。基线：DP3=参数量与本文相当的强扩散控制基线；π0=约 10× 参数的 SOTA 大 VLA；SmolVLA=本文骨干。所有方法统一训练数据/评测/优化预算。）

擦白板 73.3%，比任何基线至少高 23.3%(次高 SmolVLA+力 50%)。
均值 61.1%：碾压 SmolVLA 无力(23.3)、DP3(11.1)，也高于 约 10 倍参数的 π0 无力(26.7)。
"原始力不够"的论证：给 SmolVLA 喂原始力涨 15.6%(23.3→38.9)，但仍比本文低 22.2%；给 π0 喂原始力涨 20.0%(26.7→46.7)，本文仍高 14.4%。→ 直接喂高维噪声力不如蒸馏出的紧凑力表示。

⚠️ 正文一处疑似笔误(待核)：正文写 "even π0 without force encoding (46.7%)"，但图6 与上下文算术(π0 无力 26.7→+20.0%=46.7 为有力)一致表明 46.7% 是 π0 有力、26.7% 才是 π0 无力。表中按图6/算术取值。

5.4 消融：FDM 的两个开关（表I，每格成功次数/30）¶

变体	插插座	擦白板	按按钮	均值
去掉 FDM（直接 MLP 编码力）	8/30	15/30	12/30	38.9
FDM + "真力 token"（用 MLP 编真力替换可学 token）	12/30	17/30	17/30	51.1
FDM + 可学 token（本文）	12/30	22/30	21/30	61.1

（均值单位 %；算术核对：35/90=38.9、46/90=51.1、55/90=61.1，全部吻合。）

加 FDM 就大涨(38.9→51.1)：说明早期深度跨模态交互是主要增益来源。
可学 token > 真力 token(61.1 vs 51.1)：把可学查询换成"真力编码的隐特征"反而掉点 → 印证"原始力高维且噪声、难被策略有效整合"；可学 token 既躲开直喂原始力的坑、又借真力监督保住真实接触信息。
诚实读数：在最难的插插座上，"真力 token"与"可学 token"都是 12/30，可学 token 的增益全部来自擦白板(17→22)和按按钮(17→21)，对插插座无额外帮助。

5.5 泛化（图7，仅定性）¶

两种视觉分布偏移：新背景(布局/纹理与训练不同)、视觉扰动(光照/对比度/彩色灯变化)。作者称两种场景下方法都鲁棒(新背景靠结构线索而非纹理过拟合、光照扰动下平滑适应)。注意：只有定性描述，无成功率数字。

6. 核心洞见¶

把"力"当成可预测的 token：利用本体状态/视觉形变与接触力的强相关，从"机器人本来就有的模态"里蒸馏出力，而不是去测它。
早融合(VLM 前) + 方向性掩码：既拿到细粒度力-视觉-状态交互，又不污染冻结 VLM 的图文语义——这是对 Tactile-VLA(污染风险)和 ForceVLA(后融合限制交互)的折中。
蒸馏≈去噪正则：学到的隐力是"去噪、任务相关的力代理"，所以"预测力 > 原始真力"在小样本评测上成立。

7. 局限 / 存疑（诚实）¶

规模很小：单臂 UR5e、仅 3 个任务、每任务 50 条演示 / 30 次测试。"预测力胜过真实传感器"这种反直觉结论建立在 30 次 rollout 上，统计噪声不可忽略(可学 vs 真力 token 仅差 9 个 episode：55/90 vs 46/90)。
"免传感器"只在推理期：训练/采数仍必须有力传感器打监督标签。所以它降的是部署硬件成本，没降数据采集成本——力标注的数据护城河依旧存在。
最难任务收益有限：插插座本文也只 40%，且可学 token 在该任务相对真力 token 无增益。
泛化无定量：图7 只有定性叙述。
复现性待定：文中无项目页 / 代码链接(待核)；λ、H、token 数等超参未在正文给全。
力来自 UR5e 内置 F/T(关节力矩估计)，非指尖触觉 → 是"腕/关节级力"，不是分布式触觉；对精细多指接触的适用性未验证。

8. 对我们（深一层）¶

直接撞"免触觉硬件部署"这条线(对照内部 idea3)：FD-VLA 比卡片-Tactile-VLA / ForceVLA / 卡片-VLA-Touch 更激进——推理期连力传感器都不要，纯视觉+状态预测力。和 HapticVLA 一起佐证"免触觉硬件部署"已是明确方向。
与详读-DexTeleop-0 互为对照：DexTeleop-0 在采数端加指尖力传感把数据采精；FD-VLA 在部署端省力传感器。但二者都依赖采数阶段的力标注 → 共同指向概念-机器人数据与标注里的"力/触觉标注数据稀缺"才是真瓶颈。
机制可借：① "可学查询 token + 单查询注意力"从已有模态检索缺失模态，是通用的跨模态蒸馏套路，可迁去预测我们关心的触觉隐变量；② 方向性注意力掩码(冻结感知流 / 可写控制流)是给冻结 VLM 安全加模态的干净做法，见概念-模型架构基础。
互为对照的实证点：它给出"原始力直喂不如蒸馏力"的小样本证据，呼应卡片-AdapTac-PredictiveForceAttention（预测式力注意力）——都在说"力信号要先被模型加工成紧凑表示，而非裸喂"。
判断：思路新、骨干轻(SmolVLA)、工程干净；但证据等级偏弱(单臂/3 任务/30 trial、无代码)。结论"预测力>真实力"宜当有趣假设而非定论，可借机制、谨慎引用其数字。