跳转至

机器人知识库

Sparsh：视触觉传感器的通用自监督触觉表征（含 TacBench 基准）

Sparsh：给视触觉传感器一个通用的"触觉地基"¶

📅 2024-10 · 🏛 Meta FAIR · 🏷 触觉表征·自监督 📌 一句话省流：现在的触觉感知大多是"按任务、按传感器各搓一个"。Sparsh 改用自监督，在 46 万+ 张无标注触觉图上预训练，得到一族跨传感器、跨任务通用的触觉编码器——下游只用 1/3 标注就比"专门训"还强（平均 +95.1%）。 ≈ 打比方：像触觉版的"ImageNet 预训练"——先泛学一遍，下游用一点点标注就够。 🔬 详读：详读-Sparsh 🎬 演示：https://sparsh-ssl.github.io

🧰 对我们（可用性速判）¶

对我们的用处：和卡片-T3 并列的"通用触觉编码器地基"两强，可直接当触觉×VLA 的触觉前端。两条可直接抄的经验：①潜空间 SSL(DINO/IJEPA) 对触觉优于像素重建(MAE)，省踩坑；②冻结表征已接近微调→ 接 VLA 时可冻触觉编码器、只训接口，省算力。
真实性：✅ 全文精读 + CoRL 2024 + Meta 开源，证据硬。
训练/微调资源：预训练 ViT-B/14(86M)×46万图(重，但权重已开放)；下游可冻结+线性探测/轻微调(轻)。
能借多少(开源)：✅ 代码 facebookresearch/sparsh + 项目页；预训练数据多为公开集汇聚。
可用性结论：直接可用（拿预训练触觉编码器即可）。
🔬 详读（全文）：详读-Sparsh

亮点（全文精读后定位）¶

标签效率是真亮点：1/3 标注超端到端，1–10% 标注下 SSL 仍可用、端到端急剧崩——这才是"地基"的意义。
潜空间 > 像素空间：DINO/IJEPA 比 MAE 平均高 5.6%，能滤光照/噪声、更泛化。
分工清晰：Sparsh(DINO) 擅物理类(力/位姿)，Sparsh(IJEPA) 擅语义类(滑移/抓取/织物)。
配套 TacBench：6 任务标准基准(力/滑移/位姿/抓取稳定/织物/走珠迷宫)，跨传感器可比。

关键数字（每条带来源 [n]）¶

[1] SSL 预训练比"按任务+按传感器端到端"平均 +95.1%（33–50% 标注下）。✅📄
[2] 数据 46 万+ 无标注图：YCB-Slide 180k + Touch-and-Go 220k + ObjectFolder 81k + Touch-Slide(新采) 180k；传感器 DIGIT/GelSight2017/GelSight Mini。✅📄
[3] 潜空间(DINO/IJEPA) 比像素(MAE) +5.6%；力估计(DINO,33%数据)≈ 0.1N；走珠迷宫轨迹误差比端到端低 20–53%。✅📄
[4] 骨干 ViT-B/14（86.3M）；输入双帧拼接(6通道,224²)。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2410.24090，CoRL 2024（✅ 全文精读）。
代码/数据：✅ 代码开源(facebookresearch/sparsh)；数据多为公开集汇聚。
证据等级：A（全文 + 开源 + 顶会）→ 权重：高。

🧪 复现条件与成本（暂不亲做，只估）¶

直接用：下载预训练触觉编码器(ViT-B/14) → 冻结 + 下游轻探测，最省。
重训：需汇聚 46 万图 + 多卡训 150 epoch（重，但没必要，权重已开放）。
侧证判价值：顶会 ✅ / 代码开源 ✅ / 标签效率实测 ✅ / 跨传感器迁移验证 ✅。

💡 我的批注 / 判断（🤖，待人复核）¶

触觉×VLA 选触觉前端时，Sparsh vs T3 二选一或并用：要"标签效率 + 潜空间经验 + 冻结即用"选 Sparsh；要"跨传感器 token 化 + 更大数据"看 T3。
⚠️ 局限要记牢：表征强 ≠ 闭环控制稳——走珠迷宫真机仍因复合误差掉珠；且训练数据偏离散接触，切向(shear)交互偏少，做"滑移/力控"主线时需补这类数据。
与卡片-AnyTouch、卡片-UniTouch、卡片-TVL 同属"触觉表征地基"族，可在精读索引的🧩组对照。

来源编号¶

[1][2][3][4] arXiv 2410.24090 全文（✅ 已核，见详读-Sparsh）。