UniTouch:把"触觉"接进视觉/语言/声音的统一空间¶
📅 2024-01 · 🏛 UMich(Andrew Owens 组)· 🏷 触觉表征·多模态对齐 📌 一句话省流:触觉数据贵、各家传感器输出又不统一。UniTouch 不去凑"触觉-文字"配对数据,而是把触觉对齐到 CLIP 那套"已经连好视觉/语言/声音"的图像空间——触觉一搭上视觉,就顺势连上了语言和声音,于是能零样本识材料、答触觉图问答。 ≈ 打比方:触觉"蹭"上图像这个已经社交广泛的朋友,瞬间认识了它的全部朋友(语言/声音)。 🔬 详读:详读-UniTouch 🎬 演示:https://cfeng16.github.io/UniTouch/
🧰 对我们(可用性速判)¶
- 对我们的用处:要"触觉零样本接语言/VLA"时的首选范式——对齐到视觉锚后白嫖整套多模态绑定,可直接复用现成 VLM 的语言接口。与 卡片-AnyTouch 思路最像(都用 sensor token + 对齐),选型时对照。
- 真实性:✅ 全文精读 + CVPR 2024 + Owens 组 + 开源。
- 训练/微调资源:ViT(24层) + ~49 万视-触对预训练;下游可零样本/线性探测,轻。
- 能借多少(开源):✅ 代码
cfeng16/UniTouch+ 项目页。 - 可用性结论:直接可用(取编码器做零样本/下游)。
- 🔬 详读(全文):详读-UniTouch
亮点(全文精读后定位)¶
- 核心招:对齐到视觉锚 → 免成对"触-文/触-声"数据就连上多模态(ImageBind 式)。
- sensor-specific token(可学习前缀, L=5, K=3 传感器):一套模型吃多种异构视触觉传感器。
- 零样本能力首秀:材料分类、跨模态检索、触觉图问答、X↔触生成。
- 消融证实关键件:sensor token 与 in-batch 采样各自贡献显著(见数字)。
关键数字(每条带来源 [n])¶
- [1] 零样本材料分类(Touch-and-Go) 52.7% vs 有监督 43.5%;抓取稳定性(OF2.0) 线性探测 78.1%/零样本 64.3%。✅📄
- [2] 跨模态检索(OF2.0,mAP):触→视 41.9(vs 32.3)、触→声 37.9、触→文 38.0。✅📄
- [3] 消融:sensor token +17%(38.1 vs 21.4)、in-batch 采样 +19%(40.3)。✅📄
- [4] 数据 ~49.3 万视-触对(Touch-and-Go/Feeling-of-Success/YCB-Slide/OF2.0);骨干 ViT(24层,16头,C=1024)。✅📄
🔎 证据与可信度(见 _卡片规范)¶
- 论文:arXiv 2401.18084,CVPR 2024(✅ 全文精读)。
- 代码:✅ 开源(cfeng16/UniTouch)。
- 证据等级:A → 权重:高。
🧪 复现条件与成本(暂不亲做,只估)¶
- 直接用:取预训练编码器做零样本/线性探测,最省。
- 重训:~49 万对 + 多卡对比预训练(中等偏重,但权重已开放)。
- 侧证判价值:顶会 ✅ / 开源 ✅ / 零样本+消融实证 ✅。
💡 我的批注 / 判断(🤖,待人复核)¶
- 接 VLA 的现实路径:触觉编码器对齐到 CLIP/视觉空间后,可直接挂现成 VLM 语言接口——与 卡片-VLA-Touch"外挂触觉"互补。
- ⚠️ 局限:只支持视觉式触觉传感器、且表征是黑盒——做力控/可解释主线时它帮不上。
- 与 卡片-AnyTouch、卡片-Sparsh、卡片-TVL 同属触觉表征地基族,见 精读索引 🧩组。
来源编号¶
- [1][2][3][4] arXiv 2401.18084 全文(✅,见 详读-UniTouch)。