跳转至

机器人知识库

MViTac：自监督对比预训练的视觉-触觉多模态表征

MViTac：用对比学习把"看"和"摸"自监督地绑在一起¶

📅 2024-01 · 🏛 Leoben（奥地利）· 🏷 视触觉表征·对比学习 📌 一句话省流：把视觉和触觉不用标注地学到一块——靠"同模态内"和"跨模态间"两路对比损失，让编码器既懂看也懂摸；材料分类、抓取成功预测上比同类自监督更强。 ≈ 打比方：让"眼睛"和"手"互相对暗号，谁也不用老师教，就学会了配合。 🔬 详读：详读-MViTac 🎬 演示：https://sites.google.com/view/mvitac/home

🧰 对我们（可用性速判）¶

对我们的用处：轻量经典基线(ResNet-18 级)，比卡片-T3/卡片-AnyTouch/卡片-Sparsh 小很多，适合做对照实验/小规模快速验证，不当主力地基。可借的是"intra+inter 双对比"这个干净配方。
真实性：✅ 全文精读 + 开源；但作者自陈小数据上逊于有监督。
训练/微调资源：双 ResNet-18(ImageNet 预训练) + MoCo 动量，单机可跑。
能借多少(开源)：✅ 代码 ligerfotis/mvitac + 模型 + Calandra 划分。
可用性结论：可复刻 / 适合对照（非 SOTA）。
🔬 详读（全文）：详读-MViTac

亮点（全文精读后定位）¶

双对比配方：L = L_vv + L_tt + λ·(L_vt + L_tv)，模态内 + 模态间联合。
干净轻量：ResNet-18 + 128 维投影头 + MoCo，复现门槛低。
融合 > 单模态：视触融合在所有任务上稳定优于单模态。

关键数字（每条带来源 [n]）¶

[1] 材料分类(Touch-and-Go)：类别 74.9%(vs SSVTP 70.7 / TAG 68.6)；硬/软 91.8%；糙/滑 84.1%。✅📄
[2] 抓取成功预测(Calandra)：MViTac 60.3%(vs TAG-CMC 56.3)；有监督基线 73.1%(数据少~18k)。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2401.12024（✅ 全文精读）。
代码：✅ 开源(ligerfotis/mvitac)。
证据等级：A（全文 + 开源）→ 权重：中(偏上)（方法轻量，故权重不顶格）。

🧪 复现条件与成本（暂不亲做，只估）¶

训练：单机即可(ResNet-18 级)，数据用公开 TAG/Calandra。
侧证判价值：开源 ✅ / 公开数据 ✅ / 但小数据逊于有监督(作者自陈) ⚠️。

💡 我的批注 / 判断（🤖，待人复核）¶

选型定位清楚：对照/快速验证用 MViTac，主力地基用 Sparsh/T3/UniTouch。作者自己承认小数据打不过有监督，别当 SOTA 用。
"intra+inter 双对比"可作我们触觉编码器消融的对照配方。

来源编号¶

[1][2] arXiv 2401.12024 全文（✅，见详读-MViTac）。