跳转至

Sparsh:给视触觉传感器一个通用的"触觉地基"

📅 2024-10 · 🏛 Meta FAIR · 🏷 触觉表征·自监督 📌 一句话省流:现在的触觉感知大多是"按任务、按传感器各搓一个"。Sparsh 改用自监督,在 46 万+ 张无标注触觉图上预训练,得到一族跨传感器、跨任务通用的触觉编码器——下游只用 1/3 标注就比"专门训"还强(平均 +95.1%)。 ≈ 打比方:像触觉版的"ImageNet 预训练"——先泛学一遍,下游用一点点标注就够。 🔬 详读:详读-Sparsh 🎬 演示:https://sparsh-ssl.github.io

🧰 对我们(可用性速判)

  • 对我们的用处:和 卡片-T3 并列的"通用触觉编码器地基"两强,可直接当触觉×VLA 的触觉前端。两条可直接抄的经验:①潜空间 SSL(DINO/IJEPA) 对触觉优于像素重建(MAE),省踩坑;②冻结表征已接近微调→ 接 VLA 时可冻触觉编码器、只训接口,省算力。
  • 真实性:✅ 全文精读 + CoRL 2024 + Meta 开源,证据硬。
  • 训练/微调资源:预训练 ViT-B/14(86M)×46万图(重,但权重已开放);下游可冻结+线性探测/轻微调(轻)。
  • 能借多少(开源):✅ 代码 facebookresearch/sparsh + 项目页;预训练数据多为公开集汇聚。
  • 可用性结论直接可用(拿预训练触觉编码器即可)。
  • 🔬 详读(全文):详读-Sparsh

亮点(全文精读后定位)

  • 标签效率是真亮点:1/3 标注超端到端,1–10% 标注下 SSL 仍可用、端到端急剧崩——这才是"地基"的意义。
  • 潜空间 > 像素空间:DINO/IJEPA 比 MAE 平均高 5.6%,能滤光照/噪声、更泛化。
  • 分工清晰:Sparsh(DINO) 擅物理类(力/位姿),Sparsh(IJEPA) 擅语义类(滑移/抓取/织物)。
  • 配套 TacBench:6 任务标准基准(力/滑移/位姿/抓取稳定/织物/走珠迷宫),跨传感器可比。

关键数字(每条带来源 [n])

  • [1] SSL 预训练比"按任务+按传感器端到端"平均 +95.1%(33–50% 标注下)。✅📄
  • [2] 数据 46 万+ 无标注图:YCB-Slide 180k + Touch-and-Go 220k + ObjectFolder 81k + Touch-Slide(新采) 180k;传感器 DIGIT/GelSight2017/GelSight Mini。✅📄
  • [3] 潜空间(DINO/IJEPA) 比像素(MAE) +5.6%;力估计(DINO,33%数据)≈ 0.1N;走珠迷宫轨迹误差比端到端低 20–53%。✅📄
  • [4] 骨干 ViT-B/14(86.3M);输入双帧拼接(6通道,224²)。✅📄

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2410.24090,CoRL 2024(✅ 全文精读)。
  • 代码/数据:✅ 代码开源(facebookresearch/sparsh);数据多为公开集汇聚。
  • 证据等级:A(全文 + 开源 + 顶会)→ 权重:高

🧪 复现条件与成本(暂不亲做,只估)

  • 直接用:下载预训练触觉编码器(ViT-B/14) → 冻结 + 下游轻探测,最省
  • 重训:需汇聚 46 万图 + 多卡训 150 epoch(重,但没必要,权重已开放)。
  • 侧证判价值:顶会 ✅ / 代码开源 ✅ / 标签效率实测 ✅ / 跨传感器迁移验证 ✅。

💡 我的批注 / 判断(🤖,待人复核)

  • 触觉×VLA 选触觉前端时,Sparsh vs T3 二选一或并用:要"标签效率 + 潜空间经验 + 冻结即用"选 Sparsh;要"跨传感器 token 化 + 更大数据"看 T3。
  • ⚠️ 局限要记牢:表征强 闭环控制稳——走珠迷宫真机仍因复合误差掉珠;且训练数据偏离散接触,切向(shear)交互偏少,做"滑移/力控"主线时需补这类数据。
  • 卡片-AnyTouch卡片-UniTouch卡片-TVL 同属"触觉表征地基"族,可在 精读索引 的🧩组对照。

来源编号

  • [1][2][3][4] arXiv 2410.24090 全文(✅ 已核,见 详读-Sparsh)。