type: 详读(中文全文摘要) domain: 大脑·学习方法 / 触觉 对应卡片: 卡片-HapticVLA arxiv: "2603.15257" 来源: 全文精读(arXiv txt 正文 v1),🤖Claude 摘译,关键数字📄来自正文 date: 2026-07-04
详读 · HapticVLA:推理时不用触觉传感器的接触密集 VLA(Skoltech,2026-03)¶
一、问题与核心主张¶
- 问题:触觉对接触密集操作关键,但依赖专用触觉硬件抬高成本、跨平台难复现。
- 主张:触觉感知能离线学、部署时不用触觉反馈。两段紧耦合——① SA-RWFM(安全感知·奖励加权流匹配)把"安全触觉奖励"编进动作专家;② 触觉蒸馏 TD把这份触觉能力蒸进普通 VLA(学生只从视觉+状态预测一个紧凑触觉 token),推理时无需板载触觉传感器。
二、方法¶
2.1 SA-RWFM(安全感知奖励加权流匹配)¶
- 离线触觉安全奖励:从左右触觉图算 mean force/peak/concentration/CoP、检测 holding 与 slip;逐步奖励惩罚过力、holding 时欠力、峰压、集中、左右不对称、滑移;再算 episode 级风险分。
- 奖励加权 FM:对每个训练样本按其奖励(episode+chunk 混合、组内 robust 归一、优势式打分→指数加权裁剪)加权流匹配损失;加 anchor 正则约束参数不偏离初始模仿解(防漂移/模式坍缩)。
- 基座 = SmolVLA(0.45B)。刻意采集成功+故障(过力致损)演示,负奖励锐化高奖励区。
2.2 触觉蒸馏 TD¶
- 教师(带触觉)先离线在全训练集预生成动作块(软标签,含触觉力感知+奖励质量偏置)。
- 学生零架构改动:从教师权重初始化(丢触觉编码器列、保本体投影)。
- 混合目标训练:
ã=(1-α)a_GT + α·â_teacher(α=0.5),既锚真值防放大教师错、又注入触觉力调制。推理时学生仅用视觉+状态。
三、硬件/数据¶
- 2× LeRobot SO-101 臂(右臂加指尖触觉);触觉阵列每指 100 taxels(10×10)、共 200 taxels @120Hz,力程 1–9N;Jetson Orin NX 16GB 边缘计算。
- 任务:jar/waffles/egg 三个易碎物 pick-and-place。数据 310 真实(含故障) + 1000 Isaac Sim。
四、关键结果(📄)¶
- 均值成功率 86.7%,一致超基线——包括推理时给了真实触觉反馈的版本。
- egg 任务比基座 SmolVLA 绝对 +45%;X-VLA/VLA-0 在这些接触密集任务上 0%(泛化失败)。
- 消融(Table I):w/o TD 75 → SA-RWFM 有 TD 86.7;异步推理反而掉点(触觉观测与动作时序错位)。
五、局限(🤖)¶
- 触觉奖励需离线从真实触觉数据算(采集阶段仍要触觉硬件+故障样本);只在夹爪 pick-place 三任务验证,规模小(20 trials/任务)。
- 蒸馏的触觉 token 语义不可读;跨物体/跨任务泛化未广测。
六、开源 / 出处¶
- arXiv 2603.15257(2026-03);Skoltech(莫斯科)。代码/模型/数据/数字孪生在项目页。
七、对我们(精读后判断,🤖)¶
- 与 卡片-FD-VLA/详读-FD-VLA 同一"推理时去传感器"思路:FD-VLA 蒸的是"力 token",HapticVLA 蒸的是"触觉 token"且多了安全奖励(过力/滑移)这层——是"力蒸馏"家族的触觉+安全版。
- 与 卡片-Tactile-VLA/卡片-VLA-Touch/卡片-OmniVTLA 同属触觉×VLA 融合谱,但卖点是"部署免触觉硬件"——对"想要触觉收益又怕硬件绑定"的落地场景有价值(呼应
projects/demo 线的低成本诉求)。 - "预计算安全触觉奖励 + 奖励加权 FM"是把 offline-RL 引入触觉 VLA 的具体配方,可借。