跳转至

Sparsh:给视触觉传感器一个通用的"触觉地基"

📌 一句话省流:今天的视触觉感知大多是"按任务/按传感器"手搓的。Sparsh 用 MAE / DINO / JEPA 等自监督,在 46 万+ 张无标注触觉图(DIGIT、GelSight 2017、GelSight Mini)上预训练,得到一族通用、跨传感器的触觉表征;并配套 TacBench 标准基准(6 类任务)。Meta FAIR + UW + CMU 出品。

🧰 对我们(速判)

  • 能不能借:这是与 卡片-T3 并列的"通用触觉编码器"候选地基,思路是纯自监督、不依赖标签——直接当下游策略的触觉编码器。
  • 资源:预训练已用 46 万+ 无标注图;下游可线性探测/轻微调(具体算力/权重档位待核全文)。
  • 开源:✅ facebookresearch/sparsh(代码开源;权重/预训练数据是否全开放待核)。
  • 证据:B(摘要级已核出处 + CoRL 2024 + 大组开源;未精读,数字仅摘要级)。

关键(摘要级)

  • 📄 三类自监督算法(MAE / DINO / JEPA)训出"通用触觉表征",覆盖多种视触觉传感器。[1]
  • 📄 数据:46 万+ 无标注触觉样本,来自 DIGIT / GelSight 2017 / GelSight Mini。[1]
  • 📄 TacBench:6 项任务(从触觉属性理解到物理感知/操作规划);摘要称自监督预训练平均比"按任务+按传感器端到端训练"高 95.1%,其中 Sparsh(DINO)、Sparsh(IJEPA) 最强。⚠️ 该 95.1% 为摘要口径,逐任务数字待核全文。[1]

来源