跳转至

机器人知识库

read HapticVLA

type: 详读（中文全文摘要） domain: 大脑·学习方法 / 触觉对应卡片: 卡片-HapticVLA arxiv: "2603.15257" 来源: 全文精读(arXiv txt 正文 v1)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-07-04

详读 · HapticVLA：推理时不用触觉传感器的接触密集 VLA（Skoltech，2026-03）¶

一、问题与核心主张¶

问题：触觉对接触密集操作关键，但依赖专用触觉硬件抬高成本、跨平台难复现。
主张：触觉感知能离线学、部署时不用触觉反馈。两段紧耦合——① SA-RWFM(安全感知·奖励加权流匹配)把"安全触觉奖励"编进动作专家；② 触觉蒸馏 TD把这份触觉能力蒸进普通 VLA(学生只从视觉+状态预测一个紧凑触觉 token)，推理时无需板载触觉传感器。

二、方法¶

2.1 SA-RWFM（安全感知奖励加权流匹配）¶

离线触觉安全奖励：从左右触觉图算 mean force/peak/concentration/CoP、检测 holding 与 slip；逐步奖励惩罚过力、holding 时欠力、峰压、集中、左右不对称、滑移；再算 episode 级风险分。
奖励加权 FM：对每个训练样本按其奖励(episode+chunk 混合、组内 robust 归一、优势式打分→指数加权裁剪)加权流匹配损失；加 anchor 正则约束参数不偏离初始模仿解(防漂移/模式坍缩)。
基座 = SmolVLA(0.45B)。刻意采集成功+故障(过力致损)演示，负奖励锐化高奖励区。

2.2 触觉蒸馏 TD¶

教师(带触觉)先离线在全训练集预生成动作块(软标签，含触觉力感知+奖励质量偏置)。
学生零架构改动：从教师权重初始化(丢触觉编码器列、保本体投影)。
混合目标训练：ã=(1-α)a_GT + α·â_teacher(α=0.5)，既锚真值防放大教师错、又注入触觉力调制。推理时学生仅用视觉+状态。

三、硬件/数据¶

2× LeRobot SO-101 臂(右臂加指尖触觉)；触觉阵列每指 100 taxels(10×10)、共 200 taxels @120Hz，力程 1–9N；Jetson Orin NX 16GB 边缘计算。
任务：jar/waffles/egg 三个易碎物 pick-and-place。数据 310 真实(含故障) + 1000 Isaac Sim。

四、关键结果（📄）¶

均值成功率 86.7%，一致超基线——包括推理时给了真实触觉反馈的版本。
egg 任务比基座 SmolVLA 绝对 +45%；X-VLA/VLA-0 在这些接触密集任务上 0%(泛化失败)。
消融(Table I)：w/o TD 75 → SA-RWFM 有 TD 86.7；异步推理反而掉点(触觉观测与动作时序错位)。

五、局限（🤖）¶

触觉奖励需离线从真实触觉数据算(采集阶段仍要触觉硬件+故障样本)；只在夹爪 pick-place 三任务验证，规模小(20 trials/任务)。
蒸馏的触觉 token 语义不可读；跨物体/跨任务泛化未广测。

六、开源 / 出处¶

arXiv 2603.15257(2026-03)；Skoltech(莫斯科)。代码/模型/数据/数字孪生在项目页。

七、对我们（精读后判断，🤖）¶

与卡片-FD-VLA/详读-FD-VLA 同一"推理时去传感器"思路：FD-VLA 蒸的是"力 token"，HapticVLA 蒸的是"触觉 token"且多了安全奖励(过力/滑移)这层——是"力蒸馏"家族的触觉+安全版。
与卡片-Tactile-VLA/卡片-VLA-Touch/卡片-OmniVTLA 同属触觉×VLA 融合谱，但卖点是"部署免触觉硬件"——对"想要触觉收益又怕硬件绑定"的落地场景有价值(呼应 projects/ demo 线的低成本诉求)。
"预计算安全触觉奖励 + 奖励加权 FM"是把 offline-RL 引入触觉 VLA 的具体配方，可借。