UniTouch:把"触觉"接进视觉/语言/声音的统一空间¶
📌 一句话省流:触觉数据贵、传感器输出不标准。UniTouch 把触觉嵌入对齐到已和多模态(视觉/语言/声音)绑定的预训练图像嵌入上(ImageBind 式思路),再用可学习的 sensor-specific token 同时吃多种异构触觉传感器;从而零样本做抓取预测、触觉图问答等任务。
🧰 对我们(速判)¶
- 能不能借:要"触觉接语言/VLA"时的候选——它把触觉直接挂到视觉锚点上,便于零样本接入多模态。与 卡片-AnyTouch 思路相近(都用 sensor token + 对齐),可对照选型。
- 资源:可用开源模型做零样本/下游;训练规模与算力待核全文。
- 开源:✅
cfeng16/UniTouch+ 项目页。 - 证据:B(摘要级已核出处 + CVPR 2024 + 开源;未精读)。
关键(摘要级)¶
- 📄 核心机制:触觉嵌入对齐到预训练图像嵌入(图像作为连接视觉/语言/声音的枢纽),实现触觉与多模态绑定。[1]
- 📄 可学习 sensor-specific token → 同时从一组异构视触觉传感器学习。[1]
- 📄 首次展示触觉的零样本能力:从机器人抓取预测到触觉图像问答。⚠️ 具体数据集/指标数字待核全文。[1]
来源¶
- [1] arXiv 2401.18084 · 项目页 cfeng16.github.io/UniTouch · 代码(摘要级核实 2026-06-29,未精读)