跳转至

HapticVLA:训练时用触觉学"别捏碎",部署时不装触觉也会轻拿轻放

📅 2026-03 · 🏛 Skoltech(Intelligent Space Robotics Lab,莫斯科) · 🏷 触觉蒸馏 VLA 📌 一句话省流:给 VLA 装触觉硬件贵、跨平台难复现。HapticVLA 主张触觉能力离线学、推理时不用触觉。两步:①SA-RWFM(安全感知·奖励加权流匹配)——训一个流匹配动作专家,用预先算好的"安全触觉奖励"(惩罚过大抓力/滑移/次优轨迹)加权;②触觉蒸馏(TD)——把老师(带触觉)的能力蒸成一个紧凑触觉 token,让学生 VLA 只从视觉+状态就预测这个 token,于是部署零触觉传感器也能轻拿脆物。真机 86.7%,甚至超过"推理时带触觉"的基线。 ≈ 打比方:老师戴着触觉手套学会"捏鸡蛋别捏碎",再把这套手感"默写"给不戴手套的学生——学生光看就知道该多轻。 🎬 演示/资源:项目页(代码/模型/数据/Isaac Sim 数字孪生全开)。

🧰 对我们(可用性速判)

  • 对我们的用处"免推理传感器的触觉/力感知"这条路的又一实现,与 卡片-FD-VLA(力蒸馏)同族、可对照。对"想要触觉好处但不想每台机器人都装触觉皮肤"的落地场景直接有用;安全奖励(防捏碎脆物)这套 reward 设计可复用。
  • 真实性(前期):中(偏上)。代码/模型/数据/数字孪生全开 + 真机 → 但单实验室、3 任务、每任务 20 trial、310 episode 小规模、预印本 → 证据 B+。
  • 训练/微调资源:基座 SmolVLA(0.45B),边缘 Jetson Orin NX 可跑;需带触觉的机器人采教师数据(200 taxels@120Hz)。
  • 能借多少(开源):✅ 代码+模型+数据集+Isaac Sim 数字孪生。
  • 可用性结论思路/reward 设计可借,代码可试;规模小,性能别按大基准预期。
  • 📖 详读(按需):暂未做(本卡覆盖全文要点)。

亮点到底在哪(读全文后定位)

  • 亮点=把"安全触觉奖励"灌进流匹配 + 触觉蒸馏两段式
  • SA-RWFM:从触觉图(左右各 10×10 taxel)算per-step 安全奖励——惩罚超力/持握时欠力/峰值压强/压力集中/双指不对称/滑移;再算 episode 级风险分;用 reward 对每个训练样本加权流匹配损失(exp(αA)、clip、组内 robust 归一化 MAD),并加 anchor 正则防生成策略漂移/模式崩溃。[1]
  • 触觉蒸馏(TD):预先跑老师(带触觉)生成软目标动作(51,251 样本),学生从老师权重初始化(丢掉触觉编码器列)、用 α=0.5 混合(真值动作 + 老师预测) 训练 → 学生零架构改动、零触觉传感器即可 tactile-aware。[1]
  • 关键结论:TD + SA-RWFM 组合最好(86.7%);去掉 TD 降到 75%。异步 chunk 推理有时反而更差(触觉-动作时序错位)。

🧬 与其他工作的关系

  • 卡片-FD-VLA 同路不同法:都"推理免力/触觉传感器"(蒸馏成 token);FD-VLA 蒸"力",HapticVLA 蒸"触觉"+额外做安全奖励加权流匹配。作者明确对标 FD-VLA。
  • 区别于 卡片-Tactile-VLA/VTLA/卡片-OmniVTLA/卡片-VLA-Touch:那些推理时都要高端视触觉传感器;HapticVLA 主打推理免传感器、降成本提复现性。
  • 方法学借 RWFM/GRPO 等"给流匹配做 RL 微调"的近期工作(offline RL post-training for FM VLA)。

关键数字(全文核实)

  • 真机 3 任务(jar/waffles/egg pick-place,脆物)×20 trial:均值 86.7%;egg 比基座 SmolVLA +45%;X-VLA/VLA-0 竟 0%(泛化不到高精接触)。[Table I/Fig.6]
  • 消融:w/ TD+SA-RWFM 86.7% > 仅 SA-RWFM(w/o TD) 75%。[Table I]
  • 数据:自采 310 真机 episode(成功+故意 faulty/损坏)+ 1000 仿真(Isaac Sim 数字孪生);触觉 200 taxels @120Hz(每指 10×10,1–9N)。平台双臂 SO-101,Jetson Orin NX。[1]

🔎 证据与可信度

  • 论文arXiv 2603.15257(Skoltech,2026-03,预印本)✅ 全文已读。
  • 代码/模型/数据:全开源(含数字孪生)。
  • 第三方:暂无;单实验室、小规模真机。
  • 证据等级:B+(全开源+真机,但预印本+3任务/20trial 小规模)→ 权重:中(偏上)

🧪 复现/采用成本

  • 前提:带触觉的机器人采教师数据(仅训练用)+ SmolVLA 微调;推理端零触觉、Jetson 可跑。
  • 成本:数据采集(需含 faulty 样本)+ 两段训练(SA-RWFM→TD),规模不大。
  • 侧证判价值:全开源+数字孪生(高)、真机(中)、规模小/预印本/单实验室(降权)。

🧱 局限

  • 规模小:3 pick-place 任务、每任务 20 trial、310 episode、单实验室——泛化性证据弱。
  • 教师阶段仍需要触觉硬件采数据(只是推理免);安全奖励阈值靠数据分位数标定,迁移到新物体/新夹爪需重标。
  • 异步推理会掉性能(时序错位);仅平行夹爪 + taxel 阵列。

💡 我的批注 / 判断

  • 两个可复用点:① "安全奖励(防捏碎/滑移)+ 奖励加权流匹配"是把安全约束灌进 VLA 动作生成的具体配方,脆物/易损操作可直接借;② "触觉蒸馏成 token、推理免传感器"再次验证 FD-VLA 那条路(接 卡片-FD-VLA)。
  • 对我们纵线的取舍:这条路省硬件/提复现,代价是放弃了推理时的实时触觉反馈——对需要在线力伺服/滑移即时反应的任务未必够(那种仍要 卡片-FTP-1/卡片-Tactile-VLA 的在线触觉)。适合"训练期有触觉、部署期想省"的场景。
  • ⚠️ 小规模预印本,数字引用注明口径。

来源编号

  • [1] arXiv 2603.15257 · 本地 papers/HapticVLA-2603.15257.pdf(全文精读 2026-07-01)