跳转至

机器人知识库

详读 UniTouch

type: 详读（中文全文摘要） domain: 感知·触觉表征对应卡片: 卡片-UniTouch arxiv: "2401.18084" 来源: 全文精读(arXiv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · UniTouch：把触觉绑定到"万物"（CVPR 2024）¶

一、问题与核心主张¶

问题：触觉缺少与视觉/语言/声音的跨模态关联；数据贵、传感器输出不标准（域差大）、无基础模型。
主张：把触觉嵌入对齐到"已经和多模态绑定好的预训练图像嵌入"（ImageBind/CLIP）——借现成的多模态结构，无需成对的"触觉-文本/声音"数据，触觉一旦对齐到视觉，就顺势连上了语言/声音。

二、方法¶

骨干：ViT（24 层，16 头，C=1024）。
对比预训练：InfoNCE 最大化"视-触配对"的余弦相似度。
sensor-specific token：可学习前缀 token（L=5，K=3 个传感器），拼到 patch 嵌入前，吸收各传感器标定/背景差异，同时共享主表征。
in-batch 采样：σ=0.75（75% 同数据集）平衡"同传感器难负样本"与"跨传感器区分"。
传感器：训练 GelSight/DIGIT/Taxim；测试还含 GelSlim/TACTO。
数据：Touch-and-Go ~120k + Feeling of Success ~9.3k + YCB-Slide ~183k + ObjectFolder2.0 ~180k ≈ 49.3 万 视-触对。

三、结果（零样本为主）¶

零样本材料分类(Touch-and-Go)：52.7% vs 有监督基线 43.5%。
抓取稳定性(OF2.0)：线性探测 78.1% / 零样本 64.3%。
跨模态检索(OF2.0, mAP)：触→视 41.9(vs 32.3)、触→声 37.9、触→文 38.0。
触→图生成：CVTP=0.56(vs 0.35)。
Touch-LLM 描述：GPT-4 评分 3.30 vs LLaVA-1.5 的 2.33。
X→触生成：视→触材料一致性 55.3%。

四、消融¶

sensor token：多传感器材料分类 +17%(38.1% vs 21.4%)。
in-batch 采样：+19%(40.3%)。
两者合：零样本 52.7% vs 单数据集基线 43.1%，超过单传感器训练。
提示词："This feels like [CLS]"(52.7%) 优于 "This is an image of [CLS]"(40.7%)——触觉专属 prompt 有用。

五、局限（作者自陈）¶

只覆盖视觉式触觉传感器（输出格式不一）；要纳入新型传感器需扩大训练。
表征是黑盒，缺可解释性。

六、开源 / 出处¶

CVPR 2024；项目页 cfeng16.github.io/UniTouch，代码 github.com/cfeng16/UniTouch（开源）。

七、对我们（精读后判断，🤖）¶

与卡片-AnyTouch 最像（都用 sensor token + 对齐做"跨传感器统一表征"），但 UniTouch 的独门是"对齐到视觉锚→白嫖整套多模态绑定"，要"触觉零样本接语言/VLA"时是首选范式。
接 VLA 的现实启发：触觉编码器对齐到 CLIP/视觉空间后，可直接复用现成 VLM 的语言接口——和卡片-VLA-Touch 的"外挂触觉"互补。
注意黑盒、且只支持视觉式触觉——做力控/可解释性主线时它帮不上。