跳转至

机器人知识库

UniTouch（Binding Touch to Everything）：把触觉绑定到视觉/语言/声音的统一多模态表征

UniTouch：把"触觉"接进视觉/语言/声音的统一空间¶

📅 2024-01 · 🏛 UMich（Andrew Owens 组）· 🏷 触觉表征·多模态对齐 📌 一句话省流：触觉数据贵、各家传感器输出又不统一。UniTouch 不去凑"触觉-文字"配对数据，而是把触觉对齐到 CLIP 那套"已经连好视觉/语言/声音"的图像空间——触觉一搭上视觉，就顺势连上了语言和声音，于是能零样本识材料、答触觉图问答。 ≈ 打比方：触觉"蹭"上图像这个已经社交广泛的朋友，瞬间认识了它的全部朋友(语言/声音)。 🔬 详读：详读-UniTouch 🎬 演示：https://cfeng16.github.io/UniTouch/

🧰 对我们（可用性速判）¶

对我们的用处：要"触觉零样本接语言/VLA"时的首选范式——对齐到视觉锚后白嫖整套多模态绑定，可直接复用现成 VLM 的语言接口。与卡片-AnyTouch 思路最像(都用 sensor token + 对齐)，选型时对照。
真实性：✅ 全文精读 + CVPR 2024 + Owens 组 + 开源。
训练/微调资源：ViT(24层) + ~49 万视-触对预训练；下游可零样本/线性探测，轻。
能借多少(开源)：✅ 代码 cfeng16/UniTouch + 项目页。
可用性结论：直接可用（取编码器做零样本/下游）。
🔬 详读（全文）：详读-UniTouch

亮点（全文精读后定位）¶

核心招：对齐到视觉锚 → 免成对"触-文/触-声"数据就连上多模态(ImageBind 式)。
sensor-specific token(可学习前缀, L=5, K=3 传感器)：一套模型吃多种异构视触觉传感器。
零样本能力首秀：材料分类、跨模态检索、触觉图问答、X↔触生成。
消融证实关键件：sensor token 与 in-batch 采样各自贡献显著(见数字)。

关键数字（每条带来源 [n]）¶

[1] 零样本材料分类(Touch-and-Go) 52.7% vs 有监督 43.5%；抓取稳定性(OF2.0) 线性探测 78.1%/零样本 64.3%。✅📄
[2] 跨模态检索(OF2.0,mAP)：触→视 41.9(vs 32.3)、触→声 37.9、触→文 38.0。✅📄
[3] 消融：sensor token +17%(38.1 vs 21.4)、in-batch 采样 +19%(40.3)。✅📄
[4] 数据 ~49.3 万视-触对(Touch-and-Go/Feeling-of-Success/YCB-Slide/OF2.0)；骨干 ViT(24层,16头,C=1024)。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2401.18084，CVPR 2024（✅ 全文精读）。
代码：✅ 开源(cfeng16/UniTouch)。
证据等级：A → 权重：高。

🧪 复现条件与成本（暂不亲做，只估）¶

直接用：取预训练编码器做零样本/线性探测，最省。
重训：~49 万对 + 多卡对比预训练(中等偏重，但权重已开放)。
侧证判价值：顶会 ✅ / 开源 ✅ / 零样本+消融实证 ✅。

💡 我的批注 / 判断（🤖，待人复核）¶

接 VLA 的现实路径：触觉编码器对齐到 CLIP/视觉空间后，可直接挂现成 VLM 语言接口——与卡片-VLA-Touch"外挂触觉"互补。
⚠️ 局限：只支持视觉式触觉传感器、且表征是黑盒——做力控/可解释主线时它帮不上。
与卡片-AnyTouch、卡片-Sparsh、卡片-TVL 同属触觉表征地基族，见精读索引 🧩组。

来源编号¶

[1][2][3][4] arXiv 2401.18084 全文（✅，见详读-UniTouch）。