跳转至

type: 详读(中文全文摘要) domain: 感知·触觉表征 对应卡片: 卡片-Sparsh arxiv: "2410.24090" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30


详读 · Sparsh:通用自监督触觉表征(Meta FAIR,CoRL 2024)

比卡片详、比全文简的中文全文摘要。要更深 → 回 arXiv 2410.24090 原文交叉验证。

一、问题与核心主张

  • 问题:视触觉传感器越来越普及,但感知模型大多"按任务 + 按传感器手搓";而真机标注数据(力、滑移)难大规模采,且不同传感器在形状、光照、gel 标记上差异大,模型难迁移。
  • 主张:把 CV 里成熟的自监督(SSL)搬到触觉——在大量无标注触觉图上预训练,得到跨传感器、跨任务可迁移的通用触觉表征;一个预训练模型即可下游迁移。

二、方法 / 架构

  • 骨干:ViT,标准档 ViT-B/14(约 86.3M 参数)
  • 训了 4 种 SSL 目标(同框架横评):
  • MAE(像素重建,掩码自编码)
  • DINO(自蒸馏,动量教师 EMA 0.998)
  • IJEPA(潜空间联合嵌入预测,EMA 0.996)
  • VJEPA(视频版 JEPA,4 帧片段,EMA 0.996)
  • 输入:两帧触觉图拼接(Iₜ ⊕ Iₜ₋₅ → 6 通道,224×224);DIGIT 与 GelSight Mini 做背景扣除。
  • 训练:150 epoch,AdamW,cosine;lr 1e-4(MAE)/6.25e-4(JEPA);batch 100–150。

三、预训练数据(46 万+ 无标注触觉图)

来源 传感器/采集
YCB-Slide 180k 帧 DIGIT,人手滑动
Touch-and-Go 220k 帧 GelSight
ObjectFolder 81k 帧 机器人离散接触
Touch-Slide(本文新采) 180k 帧 DIGIT,玩具厨房物体
- 传感器:DIGIT(320×240)、GelSight 2017(带标记)、GelSight Mini(高清, 无标记)。

四、TacBench 基准(6 任务)与结果

任务 类别 指标
T1 力估计 触觉属性 三轴 RMSE(N)
T1A 力场可视化 触觉属性 定性(法向/切向)
T2 滑移检测 触觉属性 F1
T3 位姿估计 物理感知 SE(2) 多分类准确率
T4 抓取稳定性 物理感知 分类准确率
T5 织物识别 物理感知 20 类分类准确率
T6 走珠迷宫 Bead Maze 操作规划 位置误差(cm)/行进距离
  • 总结论:SSL 预训练比"按任务+按传感器端到端"平均 +95.1%(在 33–50% 标注数据下)。📄
  • 分工Sparsh(DINO) 擅物理类(力、位姿);Sparsh(IJEPA) 擅语义类(滑移、抓取、织物)。
  • 力估计(DINO, 33%数据)≈ 0.1N 误差;织物识别(MAE, 10%数据)显著超端到端;走珠迷宫轨迹误差比端到端低 20–53%(真机仅部分完成)。

五、关键消融

  • 标签效率:只用 1/3 标注即可超端到端;在 1–10% 标注下 SSL 仍可用、端到端则急剧崩。← 最核心卖点。
  • 潜空间 > 像素空间:DINO/IJEPA(潜) 比 MAE(像素) 平均高 5.6%;潜空间能滤掉噪声/光照差异、更泛化。
  • 跨传感器迁移:无标记传感器(DIGIT/GelSight Mini)的切向力/滑移也变得可解;展示 10-shot 织物 GelSight→DIGIT 迁移。
  • 冻结 vs 微调:部分微调仅微弱提升,冻结表征已接近——说明表征本身够强。

六、局限(作者自陈)

  1. 开源触觉数据多为离散接触;补充富含切向(shear)交互的数据可进一步提升表征。
  2. 未消融触觉图历史长度对表征的影响。
  3. 走珠迷宫真机因高精度要求 + 误差不可恢复,只能部分完成(复合误差致珠子掉落)。
  4. 触觉仿真无法建模阴影及逐传感器个体差异,限制其可用性。

七、开源

  • 项目页 https://sparsh-ssl.github.io/ ;代码仓 github.com/facebookresearch/sparsh(Meta FAIR)。论文正文未逐字声明权重发布范围,以项目页/仓库为准。

八、对我们(精读后判断,🤖)

  • 卡片-T3 并列为"通用触觉编码器地基"两强:T3 偏"跨传感器 token 化 + 大数据",Sparsh 偏"多 SSL 横评 + 标签效率 + 潜空间优势"。做触觉×VLA 的触觉前端,二选一或并用
  • 最值得借:①潜空间 SSL(DINO/IJEPA)对触觉更优这个经验,省得我们再踩像素重建的坑;②冻结即够强→ 接 VLA 时可冻结触觉编码器、只训接口,省算力。
  • 风险点:真机精细操作(走珠迷宫)仍掉链子——触觉表征强 ≠ 闭环控制稳,二者别混为一谈。