Sparsh:给视触觉传感器一个通用的"触觉地基"¶
📅 2024-10 · 🏛 Meta FAIR · 🏷 触觉表征·自监督 📌 一句话省流:现在的触觉感知大多是"按任务、按传感器各搓一个"。Sparsh 改用自监督,在 46 万+ 张无标注触觉图上预训练,得到一族跨传感器、跨任务通用的触觉编码器——下游只用 1/3 标注就比"专门训"还强(平均 +95.1%)。 ≈ 打比方:像触觉版的"ImageNet 预训练"——先泛学一遍,下游用一点点标注就够。 🔬 详读:详读-Sparsh 🎬 演示:https://sparsh-ssl.github.io
🧰 对我们(可用性速判)¶
- 对我们的用处:和 卡片-T3 并列的"通用触觉编码器地基"两强,可直接当触觉×VLA 的触觉前端。两条可直接抄的经验:①潜空间 SSL(DINO/IJEPA) 对触觉优于像素重建(MAE),省踩坑;②冻结表征已接近微调→ 接 VLA 时可冻触觉编码器、只训接口,省算力。
- 真实性:✅ 全文精读 + CoRL 2024 + Meta 开源,证据硬。
- 训练/微调资源:预训练 ViT-B/14(86M)×46万图(重,但权重已开放);下游可冻结+线性探测/轻微调(轻)。
- 能借多少(开源):✅ 代码
facebookresearch/sparsh+ 项目页;预训练数据多为公开集汇聚。 - 可用性结论:直接可用(拿预训练触觉编码器即可)。
- 🔬 详读(全文):详读-Sparsh
亮点(全文精读后定位)¶
- 标签效率是真亮点:1/3 标注超端到端,1–10% 标注下 SSL 仍可用、端到端急剧崩——这才是"地基"的意义。
- 潜空间 > 像素空间:DINO/IJEPA 比 MAE 平均高 5.6%,能滤光照/噪声、更泛化。
- 分工清晰:Sparsh(DINO) 擅物理类(力/位姿),Sparsh(IJEPA) 擅语义类(滑移/抓取/织物)。
- 配套 TacBench:6 任务标准基准(力/滑移/位姿/抓取稳定/织物/走珠迷宫),跨传感器可比。
关键数字(每条带来源 [n])¶
- [1] SSL 预训练比"按任务+按传感器端到端"平均 +95.1%(33–50% 标注下)。✅📄
- [2] 数据 46 万+ 无标注图:YCB-Slide 180k + Touch-and-Go 220k + ObjectFolder 81k + Touch-Slide(新采) 180k;传感器 DIGIT/GelSight2017/GelSight Mini。✅📄
- [3] 潜空间(DINO/IJEPA) 比像素(MAE) +5.6%;力估计(DINO,33%数据)≈ 0.1N;走珠迷宫轨迹误差比端到端低 20–53%。✅📄
- [4] 骨干 ViT-B/14(86.3M);输入双帧拼接(6通道,224²)。✅📄
🔎 证据与可信度(见 _卡片规范)¶
- 论文:arXiv 2410.24090,CoRL 2024(✅ 全文精读)。
- 代码/数据:✅ 代码开源(facebookresearch/sparsh);数据多为公开集汇聚。
- 证据等级:A(全文 + 开源 + 顶会)→ 权重:高。
🧪 复现条件与成本(暂不亲做,只估)¶
- 直接用:下载预训练触觉编码器(ViT-B/14) → 冻结 + 下游轻探测,最省。
- 重训:需汇聚 46 万图 + 多卡训 150 epoch(重,但没必要,权重已开放)。
- 侧证判价值:顶会 ✅ / 代码开源 ✅ / 标签效率实测 ✅ / 跨传感器迁移验证 ✅。
💡 我的批注 / 判断(🤖,待人复核)¶
- 触觉×VLA 选触觉前端时,Sparsh vs T3 二选一或并用:要"标签效率 + 潜空间经验 + 冻结即用"选 Sparsh;要"跨传感器 token 化 + 更大数据"看 T3。
- ⚠️ 局限要记牢:表征强 ≠ 闭环控制稳——走珠迷宫真机仍因复合误差掉珠;且训练数据偏离散接触,切向(shear)交互偏少,做"滑移/力控"主线时需补这类数据。
- 与 卡片-AnyTouch、卡片-UniTouch、卡片-TVL 同属"触觉表征地基"族,可在 精读索引 的🧩组对照。
来源编号¶
- [1][2][3][4] arXiv 2410.24090 全文(✅ 已核,见 详读-Sparsh)。