跳转至

机器人知识库

UniTouch（Binding Touch to Everything）：把触觉绑定到视觉/语言/声音的统一多模态表征

UniTouch：把"触觉"接进视觉/语言/声音的统一空间¶

📌 一句话省流：触觉数据贵、传感器输出不标准。UniTouch 把触觉嵌入对齐到已和多模态（视觉/语言/声音）绑定的预训练图像嵌入上（ImageBind 式思路），再用可学习的 sensor-specific token 同时吃多种异构触觉传感器；从而零样本做抓取预测、触觉图问答等任务。

🧰 对我们（速判）¶

能不能借：要"触觉接语言/VLA"时的候选——它把触觉直接挂到视觉锚点上，便于零样本接入多模态。与卡片-AnyTouch 思路相近（都用 sensor token + 对齐），可对照选型。
资源：可用开源模型做零样本/下游；训练规模与算力待核全文。
开源：✅ cfeng16/UniTouch + 项目页。
证据：B（摘要级已核出处 + CVPR 2024 + 开源；未精读）。

关键（摘要级）¶

📄 核心机制：触觉嵌入对齐到预训练图像嵌入（图像作为连接视觉/语言/声音的枢纽），实现触觉与多模态绑定。[1]
📄 可学习 sensor-specific token → 同时从一组异构视触觉传感器学习。[1]
📄 首次展示触觉的零样本能力：从机器人抓取预测到触觉图像问答。⚠️ 具体数据集/指标数字待核全文。[1]

来源¶

[1] arXiv 2401.18084 · 项目页 cfeng16.github.io/UniTouch · 代码（摘要级核实 2026-06-29，未精读）