跳转至

MViTac:用对比学习把"看"和"摸"自监督地绑在一起

📅 2024-01 · 🏛 Leoben(奥地利)· 🏷 视触觉表征·对比学习 📌 一句话省流:把视觉和触觉不用标注地学到一块——靠"同模态内"和"跨模态间"两路对比损失,让编码器既懂看也懂摸;材料分类、抓取成功预测上比同类自监督更强。 ≈ 打比方:让"眼睛"和"手"互相对暗号,谁也不用老师教,就学会了配合。 🔬 详读:详读-MViTac 🎬 演示:https://sites.google.com/view/mvitac/home

🧰 对我们(可用性速判)

  • 对我们的用处轻量经典基线(ResNet-18 级),比 卡片-T3/卡片-AnyTouch/卡片-Sparsh 小很多,适合做对照实验/小规模快速验证,不当主力地基。可借的是"intra+inter 双对比"这个干净配方。
  • 真实性:✅ 全文精读 + 开源;但作者自陈小数据上逊于有监督。
  • 训练/微调资源:双 ResNet-18(ImageNet 预训练) + MoCo 动量,单机可跑
  • 能借多少(开源):✅ 代码 ligerfotis/mvitac + 模型 + Calandra 划分。
  • 可用性结论可复刻 / 适合对照(非 SOTA)。
  • 🔬 详读(全文):详读-MViTac

亮点(全文精读后定位)

  • 双对比配方L = L_vv + L_tt + λ·(L_vt + L_tv),模态内 + 模态间联合。
  • 干净轻量:ResNet-18 + 128 维投影头 + MoCo,复现门槛低。
  • 融合 > 单模态:视触融合在所有任务上稳定优于单模态。

关键数字(每条带来源 [n])

  • [1] 材料分类(Touch-and-Go):类别 74.9%(vs SSVTP 70.7 / TAG 68.6);硬/软 91.8%;糙/滑 84.1%。✅📄
  • [2] 抓取成功预测(Calandra):MViTac 60.3%(vs TAG-CMC 56.3);有监督基线 73.1%(数据少~18k)。✅📄

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2401.12024(✅ 全文精读)。
  • 代码:✅ 开源(ligerfotis/mvitac)。
  • 证据等级:A(全文 + 开源)→ 权重:中(偏上)(方法轻量,故权重不顶格)。

🧪 复现条件与成本(暂不亲做,只估)

  • 训练:单机即可(ResNet-18 级),数据用公开 TAG/Calandra。
  • 侧证判价值:开源 ✅ / 公开数据 ✅ / 但小数据逊于有监督(作者自陈) ⚠️。

💡 我的批注 / 判断(🤖,待人复核)

  • 选型定位清楚:对照/快速验证用 MViTac,主力地基用 Sparsh/T3/UniTouch。作者自己承认小数据打不过有监督,别当 SOTA 用。
  • "intra+inter 双对比"可作我们触觉编码器消融的对照配方。

来源编号