HapticVLA：训练时用触觉学"别捏碎"，部署时不装触觉也会轻拿轻放¶

📅 2026-03 · 🏛 Skoltech（Intelligent Space Robotics Lab，莫斯科） · 🏷 触觉蒸馏 VLA 📌 一句话省流：给 VLA 装触觉硬件贵、跨平台难复现。HapticVLA 主张触觉能力离线学、推理时不用触觉。两步：①SA-RWFM(安全感知·奖励加权流匹配)——训一个流匹配动作专家，用预先算好的"安全触觉奖励"(惩罚过大抓力/滑移/次优轨迹)加权;②触觉蒸馏(TD)——把老师(带触觉)的能力蒸成一个紧凑触觉 token，让学生 VLA 只从视觉+状态就预测这个 token，于是部署零触觉传感器也能轻拿脆物。真机 86.7%，甚至超过"推理时带触觉"的基线。 ≈ 打比方：老师戴着触觉手套学会"捏鸡蛋别捏碎"，再把这套手感"默写"给不戴手套的学生——学生光看就知道该多轻。 🎬 演示/资源：项目页(代码/模型/数据/Isaac Sim 数字孪生全开)。

🧰 对我们（可用性速判）¶

对我们的用处："免推理传感器的触觉/力感知"这条路的又一实现，与卡片-FD-VLA(力蒸馏)同族、可对照。对"想要触觉好处但不想每台机器人都装触觉皮肤"的落地场景直接有用;安全奖励(防捏碎脆物)这套 reward 设计可复用。
真实性(前期)：中(偏上)。代码/模型/数据/数字孪生全开 + 真机 → 但单实验室、3 任务、每任务 20 trial、310 episode 小规模、预印本 → 证据 B+。
训练/微调资源：基座 SmolVLA(0.45B),边缘 Jetson Orin NX 可跑;需带触觉的机器人采教师数据(200 taxels@120Hz)。
能借多少(开源)：✅ 代码+模型+数据集+Isaac Sim 数字孪生。
可用性结论：思路/reward 设计可借，代码可试;规模小,性能别按大基准预期。
📖 详读（按需）：暂未做（本卡覆盖全文要点）。

亮点到底在哪（读全文后定位）¶

亮点=把"安全触觉奖励"灌进流匹配 + 触觉蒸馏两段式：
SA-RWFM：从触觉图(左右各 10×10 taxel)算per-step 安全奖励——惩罚超力/持握时欠力/峰值压强/压力集中/双指不对称/滑移;再算 episode 级风险分;用 reward 对每个训练样本加权流匹配损失(exp(αA)、clip、组内 robust 归一化 MAD),并加 anchor 正则防生成策略漂移/模式崩溃。[1]
触觉蒸馏(TD)：预先跑老师(带触觉)生成软目标动作(51,251 样本),学生从老师权重初始化(丢掉触觉编码器列)、用 α=0.5 混合(真值动作 + 老师预测) 训练 → 学生零架构改动、零触觉传感器即可 tactile-aware。[1]
关键结论：TD + SA-RWFM 组合最好(86.7%);去掉 TD 降到 75%。异步 chunk 推理有时反而更差(触觉-动作时序错位)。

🧬 与其他工作的关系¶

与卡片-FD-VLA 同路不同法：都"推理免力/触觉传感器"(蒸馏成 token);FD-VLA 蒸"力",HapticVLA 蒸"触觉"+额外做安全奖励加权流匹配。作者明确对标 FD-VLA。
区别于 卡片-Tactile-VLA/VTLA/卡片-OmniVTLA/卡片-VLA-Touch：那些推理时都要高端视触觉传感器;HapticVLA 主打推理免传感器、降成本提复现性。
方法学借 RWFM/GRPO 等"给流匹配做 RL 微调"的近期工作(offline RL post-training for FM VLA)。

关键数字（全文核实）¶

真机 3 任务(jar/waffles/egg pick-place,脆物)×20 trial：均值 86.7%;egg 比基座 SmolVLA +45%;X-VLA/VLA-0 竟 0%(泛化不到高精接触)。[Table I/Fig.6]
消融：w/ TD+SA-RWFM 86.7% > 仅 SA-RWFM(w/o TD) 75%。[Table I]
数据：自采 310 真机 episode(成功+故意 faulty/损坏)+ 1000 仿真(Isaac Sim 数字孪生);触觉 200 taxels @120Hz(每指 10×10,1–9N)。平台双臂 SO-101,Jetson Orin NX。[1]

🔎 证据与可信度¶

论文：arXiv 2603.15257（Skoltech，2026-03，预印本）✅ 全文已读。
代码/模型/数据：全开源(含数字孪生)。
第三方：暂无;单实验室、小规模真机。
证据等级：B+（全开源+真机，但预印本+3任务/20trial 小规模）→ 权重：中(偏上)。

🧪 复现/采用成本¶

前提：带触觉的机器人采教师数据(仅训练用)+ SmolVLA 微调;推理端零触觉、Jetson 可跑。
成本：数据采集(需含 faulty 样本)+ 两段训练(SA-RWFM→TD),规模不大。
侧证判价值：全开源+数字孪生(高)、真机(中)、规模小/预印本/单实验室(降权)。

🧱 局限¶

规模小：3 pick-place 任务、每任务 20 trial、310 episode、单实验室——泛化性证据弱。
教师阶段仍需要触觉硬件采数据(只是推理免);安全奖励阈值靠数据分位数标定,迁移到新物体/新夹爪需重标。
异步推理会掉性能(时序错位);仅平行夹爪 + taxel 阵列。

💡 我的批注 / 判断¶

两个可复用点：① "安全奖励(防捏碎/滑移)+ 奖励加权流匹配"是把安全约束灌进 VLA 动作生成的具体配方,脆物/易损操作可直接借;② "触觉蒸馏成 token、推理免传感器"再次验证 FD-VLA 那条路(接卡片-FD-VLA)。
对我们纵线的取舍：这条路省硬件/提复现,代价是放弃了推理时的实时触觉反馈——对需要在线力伺服/滑移即时反应的任务未必够(那种仍要卡片-FTP-1/卡片-Tactile-VLA 的在线触觉)。适合"训练期有触觉、部署期想省"的场景。
⚠️ 小规模预印本,数字引用注明口径。

来源编号¶

[1] arXiv 2603.15257 · 本地 papers/HapticVLA-2603.15257.pdf（全文精读 2026-07-01）