跳转至

FD-VLA:把"力"蒸馏成一个 token,推理时不用力传感器

📌 一句话省流:Force Distillation Module(FDM)用一个可学查询 token,仅凭视觉+机器人状态预测出"力 token"(对齐真实力的隐表示);推理时把这个力 token 注入 VLM → 无需物理力/触觉传感器也能力感知推理。还声称蒸馏力 token 比直接用传感器测量更好

🎬 演示:无明确项目页(arXiv

🧰 对我们(可用性速判)

  • 对我们的用处:力蒸馏、免传感器力感知(撞 idea3);"省硬件"思路可借。
  • 真实性(前期):中(全文,代码未确认)。证据 B。
  • 训练/微调资源:FDM 模块加到 VLM;规模正文未细摘。
  • 能借多少(开源):代码未确认;现借思路。
  • 可用性结论:仅思路借鉴。

要点(全文核实)

  • FDM:learnable query token(条件于视觉+状态)→ 预测力 token,训练时与真实力隐表示对齐;推理注入预训练 VLM。📄
  • 卖点:① 去掉昂贵/易损力矩传感器,降本; ② 早注入比 ForceVLA 的"后融合 MoE token"更细粒度。📄
  • 对比:Tactile-VLA 编码原始力、ForceVLA 后融合 token;FD-VLA 用蒸馏的早注入 token。📄

🔎 证据 / 来源

💡 与我们的关系(判断来源:🤖Claude,待复核)

  • "免触觉硬件推理"方向的代表,且更激进:FD-VLA 连力传感器都不要(纯视觉+状态预测力);另一条路线是保留廉价腕力、预测触觉隐变量。
  • 价值:和 HapticVLA 一起,说明"免触觉硬件部署"已是明确方向。

来源