type: 详读（中文全文摘要） domain: 感知·触觉表征对应卡片: 卡片-Sparsh arxiv: "2410.24090" 来源: 全文精读(arXiv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · Sparsh：通用自监督触觉表征（Meta FAIR，CoRL 2024）¶

比卡片详、比全文简的中文全文摘要。要更深 → 回 arXiv 2410.24090 原文交叉验证。

一、问题与核心主张¶

问题：视触觉传感器越来越普及，但感知模型大多"按任务 + 按传感器手搓"；而真机标注数据（力、滑移）难大规模采，且不同传感器在形状、光照、gel 标记上差异大，模型难迁移。
主张：把 CV 里成熟的自监督(SSL)搬到触觉——在大量无标注触觉图上预训练，得到跨传感器、跨任务可迁移的通用触觉表征；一个预训练模型即可下游迁移。

来源	量	传感器/采集
YCB-Slide	180k 帧	DIGIT，人手滑动
Touch-and-Go	220k 帧	GelSight
ObjectFolder	81k 帧	机器人离散接触
Touch-Slide（本文新采）	180k 帧	DIGIT，玩具厨房物体
- 传感器：DIGIT(320×240)、GelSight 2017(带标记)、GelSight Mini(高清, 无标记)。

总结论：SSL 预训练比"按任务+按传感器端到端"平均 +95.1%（在 33–50% 标注数据下）。📄
分工：Sparsh(DINO) 擅物理类(力、位姿)；Sparsh(IJEPA) 擅语义类(滑移、抓取、织物)。
力估计(DINO, 33%数据)≈ 0.1N 误差；织物识别(MAE, 10%数据)显著超端到端；走珠迷宫轨迹误差比端到端低 20–53%（真机仅部分完成）。

标签效率：只用 1/3 标注即可超端到端；在 1–10% 标注下 SSL 仍可用、端到端则急剧崩。← 最核心卖点。
潜空间 > 像素空间：DINO/IJEPA(潜) 比 MAE(像素) 平均高 5.6%；潜空间能滤掉噪声/光照差异、更泛化。
跨传感器迁移：无标记传感器(DIGIT/GelSight Mini)的切向力/滑移也变得可解；展示 10-shot 织物 GelSight→DIGIT 迁移。
冻结 vs 微调：部分微调仅微弱提升，冻结表征已接近——说明表征本身够强。

项目页 https://sparsh-ssl.github.io/ ；代码仓 github.com/facebookresearch/sparsh（Meta FAIR）。论文正文未逐字声明权重发布范围，以项目页/仓库为准。

与卡片-T3 并列为"通用触觉编码器地基"两强：T3 偏"跨传感器 token 化 + 大数据"，Sparsh 偏"多 SSL 横评 + 标签效率 + 潜空间优势"。做触觉×VLA 的触觉前端，二选一或并用。
最值得借：①潜空间 SSL（DINO/IJEPA）对触觉更优这个经验，省得我们再踩像素重建的坑；②冻结即够强→ 接 VLA 时可冻结触觉编码器、只训接口，省算力。
风险点：真机精细操作（走珠迷宫）仍掉链子——触觉表征强 ≠ 闭环控制稳，二者别混为一谈。