type: 详读(中文全文摘要) domain: 感知·触觉表征 对应卡片: 卡片-Sparsh arxiv: "2410.24090" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30
详读 · Sparsh:通用自监督触觉表征(Meta FAIR,CoRL 2024)¶
比卡片详、比全文简的中文全文摘要。要更深 → 回 arXiv 2410.24090 原文交叉验证。
一、问题与核心主张¶
- 问题:视触觉传感器越来越普及,但感知模型大多"按任务 + 按传感器手搓";而真机标注数据(力、滑移)难大规模采,且不同传感器在形状、光照、gel 标记上差异大,模型难迁移。
- 主张:把 CV 里成熟的自监督(SSL)搬到触觉——在大量无标注触觉图上预训练,得到跨传感器、跨任务可迁移的通用触觉表征;一个预训练模型即可下游迁移。
二、方法 / 架构¶
- 骨干:ViT,标准档 ViT-B/14(约 86.3M 参数)。
- 训了 4 种 SSL 目标(同框架横评):
- MAE(像素重建,掩码自编码)
- DINO(自蒸馏,动量教师 EMA 0.998)
- IJEPA(潜空间联合嵌入预测,EMA 0.996)
- VJEPA(视频版 JEPA,4 帧片段,EMA 0.996)
- 输入:两帧触觉图拼接(Iₜ ⊕ Iₜ₋₅ → 6 通道,224×224);DIGIT 与 GelSight Mini 做背景扣除。
- 训练:150 epoch,AdamW,cosine;lr 1e-4(MAE)/6.25e-4(JEPA);batch 100–150。
三、预训练数据(46 万+ 无标注触觉图)¶
| 来源 | 量 | 传感器/采集 |
|---|---|---|
| YCB-Slide | 180k 帧 | DIGIT,人手滑动 |
| Touch-and-Go | 220k 帧 | GelSight |
| ObjectFolder | 81k 帧 | 机器人离散接触 |
| Touch-Slide(本文新采) | 180k 帧 | DIGIT,玩具厨房物体 |
| - 传感器:DIGIT(320×240)、GelSight 2017(带标记)、GelSight Mini(高清, 无标记)。 |
四、TacBench 基准(6 任务)与结果¶
| 任务 | 类别 | 指标 |
|---|---|---|
| T1 力估计 | 触觉属性 | 三轴 RMSE(N) |
| T1A 力场可视化 | 触觉属性 | 定性(法向/切向) |
| T2 滑移检测 | 触觉属性 | F1 |
| T3 位姿估计 | 物理感知 | SE(2) 多分类准确率 |
| T4 抓取稳定性 | 物理感知 | 分类准确率 |
| T5 织物识别 | 物理感知 | 20 类分类准确率 |
| T6 走珠迷宫 Bead Maze | 操作规划 | 位置误差(cm)/行进距离 |
- 总结论:SSL 预训练比"按任务+按传感器端到端"平均 +95.1%(在 33–50% 标注数据下)。📄
- 分工:Sparsh(DINO) 擅物理类(力、位姿);Sparsh(IJEPA) 擅语义类(滑移、抓取、织物)。
- 力估计(DINO, 33%数据)≈ 0.1N 误差;织物识别(MAE, 10%数据)显著超端到端;走珠迷宫轨迹误差比端到端低 20–53%(真机仅部分完成)。
五、关键消融¶
- 标签效率:只用 1/3 标注即可超端到端;在 1–10% 标注下 SSL 仍可用、端到端则急剧崩。← 最核心卖点。
- 潜空间 > 像素空间:DINO/IJEPA(潜) 比 MAE(像素) 平均高 5.6%;潜空间能滤掉噪声/光照差异、更泛化。
- 跨传感器迁移:无标记传感器(DIGIT/GelSight Mini)的切向力/滑移也变得可解;展示 10-shot 织物 GelSight→DIGIT 迁移。
- 冻结 vs 微调:部分微调仅微弱提升,冻结表征已接近——说明表征本身够强。
六、局限(作者自陈)¶
- 开源触觉数据多为离散接触;补充富含切向(shear)交互的数据可进一步提升表征。
- 未消融触觉图历史长度对表征的影响。
- 走珠迷宫真机因高精度要求 + 误差不可恢复,只能部分完成(复合误差致珠子掉落)。
- 触觉仿真无法建模阴影及逐传感器个体差异,限制其可用性。
七、开源¶
- 项目页 https://sparsh-ssl.github.io/ ;代码仓
github.com/facebookresearch/sparsh(Meta FAIR)。论文正文未逐字声明权重发布范围,以项目页/仓库为准。
八、对我们(精读后判断,🤖)¶
- 与 卡片-T3 并列为"通用触觉编码器地基"两强:T3 偏"跨传感器 token 化 + 大数据",Sparsh 偏"多 SSL 横评 + 标签效率 + 潜空间优势"。做触觉×VLA 的触觉前端,二选一或并用。
- 最值得借:①潜空间 SSL(DINO/IJEPA)对触觉更优这个经验,省得我们再踩像素重建的坑;②冻结即够强→ 接 VLA 时可冻结触觉编码器、只训接口,省算力。
- 风险点:真机精细操作(走珠迷宫)仍掉链子——触觉表征强 ≠ 闭环控制稳,二者别混为一谈。