跳转至

机器人知识库

AnyTouch：跨多视触觉传感器的"静态+动态"统一表征（含对齐数据集 TacQuad）

AnyTouch：把多种视触觉传感器统一，还兼顾"摸一下"与"持续摸"¶

📌 一句话省流：视触觉传感器不标准、彼此数据有 gap。AnyTouch 用对齐的多传感器多模态数据(TacQuad)做桥，统一静态(图像)+动态(视频)触觉表征；靠掩码建模(像素细节)+多模态对齐(语义)+跨传感器匹配(传感器无关特征)，并用 universal sensor token 泛化到没见过的传感器。

🎬 演示：项目页 gewu-lab.github.io/AnyTouch（含说明/演示）

🧰 对我们（可用性速判）¶

对我们的用处：跨多传感器(含力场 Tac3D)统一触觉表征，带文本对齐、便于接语言/VLA；"双隐空间"触觉腿的候选(有对齐多传感器数据时优于 T3)。
真实性(前期)：高（ICLR25 + 全开源）。证据 A。
训练/微调资源：可直接用开源模型；TacQuad(7万帧)可训；单机多卡微调。
能借多少(开源)：✅ 代码 + ✅ TacQuad 数据 + ✅ 模型。几乎全可借。
可用性结论：直接可用 / 轻微调（有对齐数据更佳）。

亮点到底在哪（读全文后定位）¶

三件套都是亮点：① TacQuad——首个"对齐 + 多模态(触/视/文) + 多传感器(4 种)"数据集；② 静态+动态统一(图像当单帧视频，4D 张量)，多数工作只做静态；③ universal sensor token(训练时按概率把 sensor-specific token 换成通用 token)→ 迁移到未见传感器。[1]
与 T3 的关键差异：T3 处理不对齐异构数据(共享 trunk)；AnyTouch 主动采对齐数据 + 对齐到视觉/文本 + 跨传感器匹配 → 语义级传感器无关特征。[1]
中国人大 GeWu 实验室(Di Hu) + BUPT(Bin Fang)。代码/数据/模型全开源。[1]

关键数字（全文核实）¶

TacQuad：4 传感器(GelSight Mini、DIGIT、自制 DuraGel、力场 Tac3D)，72,606 接触帧；细粒度时空对齐 17,524 帧/25 物 + 粗粒度手持 55,082 帧/99 物；每帧配视觉图 + GPT-4o 触觉属性文本(人工校正)。[1]
效果：在多个离线数据集 + 真实"细粒度倒水(pouring)"任务上优于现有方法，静/动态感知 + 跨传感器迁移均验证。⚠️ 逐 benchmark 准确率数字我未逐项摘(在正文实验表/附录)，引用具体数前回正文核。[1]

🔎 证据与可信度¶

论文：arXiv 2502.12191（RUC/WUST/BUPT，ICLR 2025）✅ 全文已读。
代码/数据/模型：gewu-lab.github.io/AnyTouch ✅全开源。
证据等级：A（论文+全开源+顶会）→ 权重：中(偏上)（扣分仅因我未逐项核对实验数字，非证据问题）。
注：已有后续 AnyTouch 2（[2602.09617]，2026），可一并跟。

🧪 复现/采用成本（拿来用为主）¶

直接用：开源模型当跨传感器触觉编码器；TacQuad 可直接训练/评测。无需特殊硬件做表征本身。
若要采对齐数据：需校准平台(精对齐慢) + 手持(粗对齐快) + 多个传感器——成本中。
侧证判价值：① 全开源(高) ② 顶会 ③ 真机 pouring 验证 ④ 覆盖力场传感器(Tac3D)更全 ⑤ 我未逐项核数字(留意)。

🧱 局限（据全文推断，未见独立 Limitations 节——属"待验证"）¶

对齐数据采集成本高，规模仍有限(7万帧级)。
仍以视触觉(相机式+力场)为主。
具体下游操作任务覆盖窄(主要 pouring 等)。

💡 我的批注 / 判断¶

"双隐空间"地基的第二候选：若我们能采到/已有对齐多传感器数据，AnyTouch 比 T3 更适合(还带文本对齐，便于接语言/VLA)。否则用 T3。
universal sensor token 思路可借：让触觉模型对"换传感器"鲁棒——对团队换硬件场景很实用。
静/动态分离的视角，与卡片-TacForeSight 的"动态触觉预测"可对照(一个学表征、一个学动态预测)。

来源编号¶

[1] arXiv 2502.12191 · 项目/代码 · 本地 papers/AnyTouch-2502.12191.pdf（全文精读 2026-06-28）