AnyTouch:把多种视触觉传感器统一,还兼顾"摸一下"与"持续摸"¶
📌 一句话省流:视触觉传感器不标准、彼此数据有 gap。AnyTouch 用对齐的多传感器多模态数据(TacQuad)做桥,统一静态(图像)+动态(视频)触觉表征;靠掩码建模(像素细节)+多模态对齐(语义)+跨传感器匹配(传感器无关特征),并用 universal sensor token 泛化到没见过的传感器。
🎬 演示:项目页 gewu-lab.github.io/AnyTouch(含说明/演示)
🧰 对我们(可用性速判)¶
- 对我们的用处:跨多传感器(含力场 Tac3D)统一触觉表征,带文本对齐、便于接语言/VLA;"双隐空间"触觉腿的候选(有对齐多传感器数据时优于 T3)。
- 真实性(前期):高(ICLR25 + 全开源)。证据 A。
- 训练/微调资源:可直接用开源模型;TacQuad(7万帧)可训;单机多卡微调。
- 能借多少(开源):✅ 代码 + ✅ TacQuad 数据 + ✅ 模型。几乎全可借。
- 可用性结论:直接可用 / 轻微调(有对齐数据更佳)。
亮点到底在哪(读全文后定位)¶
- 三件套都是亮点:① TacQuad——首个"对齐 + 多模态(触/视/文) + 多传感器(4 种)"数据集;② 静态+动态统一(图像当单帧视频,4D 张量),多数工作只做静态;③ universal sensor token(训练时按概率把 sensor-specific token 换成通用 token)→ 迁移到未见传感器。[1]
- 与 T3 的关键差异:T3 处理不对齐异构数据(共享 trunk);AnyTouch 主动采对齐数据 + 对齐到视觉/文本 + 跨传感器匹配 → 语义级传感器无关特征。[1]
- 中国人大 GeWu 实验室(Di Hu) + BUPT(Bin Fang)。代码/数据/模型全开源。[1]
关键数字(全文核实)¶
- TacQuad:4 传感器(GelSight Mini、DIGIT、自制 DuraGel、力场 Tac3D),72,606 接触帧;细粒度时空对齐 17,524 帧/25 物 + 粗粒度手持 55,082 帧/99 物;每帧配视觉图 + GPT-4o 触觉属性文本(人工校正)。[1]
- 效果:在多个离线数据集 + 真实"细粒度倒水(pouring)"任务上优于现有方法,静/动态感知 + 跨传感器迁移均验证。⚠️ 逐 benchmark 准确率数字我未逐项摘(在正文实验表/附录),引用具体数前回正文核。[1]
🔎 证据与可信度¶
- 论文:arXiv 2502.12191(RUC/WUST/BUPT,ICLR 2025)✅ 全文已读。
- 代码/数据/模型:gewu-lab.github.io/AnyTouch ✅全开源。
- 证据等级:A(论文+全开源+顶会)→ 权重:中(偏上)(扣分仅因我未逐项核对实验数字,非证据问题)。
- 注:已有后续 AnyTouch 2([2602.09617],2026),可一并跟。
🧪 复现/采用成本(拿来用为主)¶
- 直接用:开源模型当跨传感器触觉编码器;TacQuad 可直接训练/评测。无需特殊硬件做表征本身。
- 若要采对齐数据:需校准平台(精对齐慢) + 手持(粗对齐快) + 多个传感器——成本中。
- 侧证判价值:① 全开源(高) ② 顶会 ③ 真机 pouring 验证 ④ 覆盖力场传感器(Tac3D)更全 ⑤ 我未逐项核数字(留意)。
🧱 局限(据全文推断,未见独立 Limitations 节——属"待验证")¶
- 对齐数据采集成本高,规模仍有限(7万帧级)。
- 仍以视触觉(相机式+力场)为主。
- 具体下游操作任务覆盖窄(主要 pouring 等)。
💡 我的批注 / 判断¶
- "双隐空间"地基的第二候选:若我们能采到/已有对齐多传感器数据,AnyTouch 比 T3 更适合(还带文本对齐,便于接语言/VLA)。否则用 T3。
- universal sensor token 思路可借:让触觉模型对"换传感器"鲁棒——对团队换硬件场景很实用。
- 静/动态分离的视角,与 卡片-TacForeSight 的"动态触觉预测"可对照(一个学表征、一个学动态预测)。
来源编号¶
- [1] arXiv 2502.12191 · 项目/代码 · 本地
papers/AnyTouch-2502.12191.pdf(全文精读 2026-06-28)