跳转至

机器人知识库

MViTac：自监督对比预训练的视觉-触觉多模态表征

MViTac：用对比学习把"看"和"摸"自监督地绑在一起¶

📌 一句话省流：理解物理世界要把视觉和触觉有效融合。MViTac 用对比学习自监督地整合视觉与触觉，靠模态内（intra-modal）+ 模态间（inter-modal）两路对比损失学表征；在材料分类、抓取成功预测上线性探测优于现有自监督/有监督方法。

🧰 对我们（速判）¶

能不能借：经典的"视触觉对比预训练"基线，比卡片-T3/卡片-AnyTouch 更轻量，适合做小规模视触觉编码器或对照实验。
资源：自监督预训练 + 线性探测评测；规模较小，单机可跑（具体算力待核）。
开源：✅ ligerfotis/mvitac + 项目页。
证据：B（摘要级已核出处 + 开源；venue/数字待核，未精读）。

关键（摘要级）¶

📄 双机制对比：inter-modal（视↔触）+ intra-modal（同模态内）联合构成自监督损失。[1]
📄 任务：材料分类 + 抓取成功预测；线性探测表明编码器更鲁棒，优于 SOTA 自监督/有监督。[1]
⚠️ 具体数据集与量化提升数字待核全文。

来源¶

[1] arXiv 2401.12024 · 项目页 sites.google.com/view/mvitac · 代码（摘要级核实 2026-06-29，未精读）