详读 · AnyTouch（跨多视触觉传感器的统一"静态+动态"表征）¶

卡片版见卡片-AnyTouch。本页是全文精读：动机 → TacQuad 数据集 → 方法(逐模块) → 实验(全表) → 消融/局限 → 对我们。来源：arXiv 2502.12191（v3, 2025-04-01；ICLR 2025 会议论文）· 项目/代码/数据作者：Ruoxuan Feng、Jiangyu Hu、Wenke Xia、Tianci Gao、Ao Shen、Yuhao Sun、Bin Fang(通讯)、Di Hu(通讯)。单位：中国人民大学 GeWu 实验室 + 武汉科技大学 + 北京邮电大学。

0. 一句话定位¶

视触觉传感器五花八门、彼此数据有 gap，单传感器各练各的 → 数据少、迁移差。AnyTouch 的解法是两件事叠在一起：① 采一个对齐的多传感器多模态数据集 TacQuad（同一物体同一位置，4 种传感器都摸一遍，再配视觉图 + 文本）当"桥"；② 在其上做一个多层级表征学习框架，把静态(图像)与动态(视频)统一成 4D 张量输入，用"掩码建模(像素级) → 多模态对齐 + 跨传感器匹配(语义级)"两阶段提特征，并用 universal sensor token 泛化到没见过的传感器。目标是一套"传感器无关"的通用触觉表征。

1. 问题与动机¶

视触觉传感器标准化程度低：同样的接触，不同传感器读出来的图差别很大（硬件差异）。导致大家只能单传感器采数 + 单传感器训练 → 数据规模/多样性受限 → 感知能力次优、换传感器不通用。
前人尝试多传感器联合训练 / 多模态对齐 / 跨传感器生成，但缺"对齐的多传感器数据"，没法把异构传感器真正整合进一个统一空间。
最接近的工作 Rodriguez et al. (2024)：采了双传感器配对数据（32,256 对触觉图）做跨传感器生成，但只 2 种传感器、物体少、面向特定操作任务，且没利用多模态数据提升迁移性。
AnyTouch 的切入：(a) 把对齐数据扩到 4 种传感器 + 配 视觉 + 文本 三模态；(b) 提出"静态 + 动态"双视角统一表征（人摸东西本就是"快摸辨材质"+"持续摸感知滑动/压力变化"两种过程的结合）。

2. TacQuad 数据集（图1，核心贡献之一）¶

图1 TacQuad：4 种视触觉传感器对齐采集——同物体同位置都摸，配视觉图与文本属性描述

4 种传感器（刻意求多样）：GelSight Mini（公开）、DIGIT（公开）、DuraGel（自制）、Tac3D（力场式，输出形变力场而非图像）。
总量 72,606 接触帧，分两档（在"采集成本 vs 配对精度"间折中）：
细粒度·时空对齐：4 个传感器并排固定在容器里、装到标定平台可动端，程序控制按同位置同速度同深度依次按压 → 时空都对齐。精度要求高、慢，只采了 30 组 / 25 物 / 17,524 帧（可用于跨传感器生成等精细任务）。
粗粒度·空间对齐：手持依次按同一物同一位置，按压时加入扭转模拟真实动态触摸。快、量大：151 组 / 99 物 / 55,082 帧（含室内外场景）。
多模态标注：每帧配一张视觉图 + 一段触觉属性文本（GPT-4o 生成 + 人工校正）。文本作为"跨数据集一致的锚"来弥合传感器差异。

注：除 TacQuad 自带文本外，作者还用 GPT-4o 给训练用的几个大数据集补/扩文本，总共为 140 万 (1.4M) 样本 造了新文本对（解决三模态数据稀缺、多数集只有"视-触"对的问题）。

3. 方法详解（图2）¶

图2 AnyTouch 总览：统一图像/视频输入 → 阶段1掩码建模(像素级) → 阶段2多模态对齐+跨传感器匹配(语义级)，含 universal sensor token

3.1 统一输入：把图像当"单帧视频"（4.1）¶

静态触觉图 I∈R^{1×H×W×3}、动态视频 V∈R^{F×H×W×3}。把图像沿时间轴复制 F 次，统一成 4D 张量 X_T∈R^{F×H×W×3}（借鉴 Omnivore/ImageBind 思路），再经共享 patch projection 变成时空 token。→ 同一套编码器同时吃图与视频，既学静态属性又学动态变化。

3.2 阶段1 · 掩码建模：学像素级细节（4.2）¶

用 MAE/VideoMAE 思路：按掩码率 ρ 随机遮 token，解码器重建静态图 Î、动态视频 V̂，损失是像素空间 MSE（L^S_rec、L^D_rec）。
额外加一个下一帧预测 L^D_pred：重建视频的同时预测第 F+1 帧 → 强化对"连续形变变化"的理解。
这一层学到的是像素级、传感器相关的细粒度特征（后面 t-SNE 会看到它反而让样本"按传感器聚类"，所以还不够）。

3.3 阶段2a · 多模态对齐：学语义级属性（4.3，图3）¶

图3 与已有多模态对齐方法对比：AnyTouch 不仅用多模态弥合传感器gap，还把"同物同位不同传感器"的表征显式聚到一起

直接做"视-触"对齐在跨数据集（仿真 vs 真实）时不灵 → 选文本模态当锚（文本对触觉属性的描述跨数据集一致），对齐触/视/文三模态。
缺模态感知的对比学习：很多数据只有"视-触"对、没文本。做法是在 batch 内为每种模态组合取最大可用子集做对齐（公式3给的是"视→文"，含缺失模态时只在交集 Ω_V∩Ω_L 上算），方向对称地有 T→V/T→L/V→L 等六项，加权合成 L_align（权重 α_TV, α_TL, α_VL）。

3.4 阶段2b · 跨传感器匹配：抽传感器无关特征（4.4）¶

新任务：判断两张触觉图/视频是不是来自同物体同位置。正样本=同物同位另一传感器采的；负样本=任意其他物/位。
把 anchor 表征 x_T 与正/负样本表征逐元素相乘后过 MLP 得匹配分 m+/m−，用 BCE 损失 L_match（公式6）。
作用：显式把"同一触觉信息、不同传感器"的表征聚到一起 → 形成统一多传感器空间、抽出传感器无关特征 → 利于泛化到未见传感器。

3.5 Universal Sensor Token（4.5，泛化关键）¶

已有做法用 sensor-specific token（每种传感器一组）存传感器信息，但换新传感器时没法把所有已见传感器的知识都迁过去。
AnyTouch：除每传感器各 L 个 specific token 外，再设一组通用 token s_u。训练时以概率 p_u 把 specific token 随机替换成 universal token（公式7，i∼Bernoulli(p_u)）；推理时对新传感器一律用 universal token。→ 通用 token 吸收了所有已见传感器的共性知识。

3.6 两阶段训练 + 实现细节（4.6 / A.6）¶

阶段1 L_stage1 = L^S_rec + L^D_rec + L^D_pred（像素级）；阶段2 L_stage2 = L_align + λ·L_match（语义级）。顺序训练。
编码器基于 OpenCLIP-Large；触觉解码器 = ViT 8 层 / 维度 512。AdamW，lr=2e-4，1 epoch warm-up 后线性衰减。视频片段 T=3 帧。阶段1 训 20 epoch、阶段2 训 12 epoch，4×NVIDIA A800。掩码率 ρ=0.75。对齐时冻结文本编码器、对视觉编码器做 LoRA 微调。α_TV=α_TL=1.0, α_VL=0.2，λ=0.1，每传感器 L=5 个 token，p_u 在两阶段都从 0 线性增到 0.75。

4. 实验¶

4.1 设置¶

训练用 9 个数据集：Touch&Go(TAG)、VisGel、Cloth、ObjectFolder Real、TVL、YCB-Slide、SSVTP、Octopi + TacQuad 粗粒度子集。
下游 4 个数据集：TAG、Feel（GelSight 抓取成功预测）、ObjectFolder 1.0（TACTO 仿真，未见传感器）、ObjectFolder 2.0（Taxim 仿真，未见传感器）。
基线：单传感器 ViT-Lens-2 / TLV-Link / OmniBind；多传感器 UniTouch（之前的跨传感器 SOTA）。用全量数据重训的记为 UniTouch† / TLV-Link†。真机动态任务对比 T3（用了约 3M 数据，比 AnyTouch 多）。
三问：Q1 各传感器数据整合的增益？Q2 统一空间长什么样？Q3 静/动态感知更强吗？

4.2 Q1 传感器可迁移性（表1）¶

逐步把 GelSight→GelSlim→DIGIT→GelSight Mini 的数据加入训练，看 4 个下游任务（数字=准确率%）：

训练数据	数据量	TAG(材质,见)	Feel(抓取,见传感器未见集)	OF1.0(未见)	OF2.0(未见)
无触觉预训练(CLIP)	/	52.96	72.37	41.00	73.16
+GelSight(TAG,VisGel,Cloth)	996k	83.55 (↑30.59)	79.12 (↑6.75)	46.12 (↑5.12)	75.10 (↑1.94)
+OF Real	2161k	79.67 (↓3.88)	79.28 (↑0.16)	47.55 (↑1.43)	75.53 (↑0.43)
+TVL,SSVTP,YCB-Slide	2388k	79.61 (↓0.06)	79.10 (↓0.18)	48.00 (↑0.45)	75.57 (↑0.04)
+Octopi(全量)	2427k	79.70 (↑0.09)	79.40 (↑0.30)	48.75 (↑0.75)	75.66 (↑0.09)

触觉预训练本身极其关键：仅加 GelSight 数据，TAG 材质就从 52.96 飙到 83.55。
继续加更多传感器数据，未见传感器/未见集上稳步涨（迁移性确实存在），且未见传感器涨得比已见多。
两个诚实现象：(1) TAG 上加更多数据反而掉（79 几）——因为 TAG 本身在预训练里，加别的数据稀释了 TAG 占比（与 CLIP 论文"下游与预训练重叠越多越好"一致）；(2) DIGIT 数据量更大但增益不如 GelSight Mini——推测 DIGIT 的图像与 GelSight 系差异更大（硬件差异）。

4.3 Q2 统一表征空间（图4，t-SNE）¶

图4 t-SNE：CLIP→+掩码建模→+多模态对齐→+跨传感器匹配，逐步从"按传感器聚类"变成"按物体触觉信息聚类"

在 TacQuad 未用过的细粒度子集上做 t-SNE（每种颜色=一次触摸，虚线连同位置三传感器样本）： - CLIP：没见过触觉图 → 按传感器聚类（最差）。 - +掩码建模：每个传感器内更集中，但仍按传感器分（像素级特征是传感器相关的）。 - +多模态对齐：开始按物体混合聚类，但还残留传感器倾向。 - +跨传感器匹配：不同传感器充分混合、清晰按物体触觉信息聚类 → 证明抽到了传感器无关特征、具备向未见传感器泛化的能力。

4.4 Q3-静态·已见传感器 GelSight（表2，准确率%）¶

方法	训练数据	TAG材质	TAG粗糙度	TAG硬度	Feel抓取
CLIP	/	52.96	84.09	88.34	72.37
ViT-Lens-2	TAG	63.0	85.1	92.0	-
TLV-Link	Touch100k	67.2	84.7	91.3	94.5‡
OmniBind	TAG	67.45	-	-	-
UniTouch	TAG,Feel*,YCB,OF2.0	61.3	-	-	82.3
TLV-Link†	TAG,TVL,SSVTP,OFReal,TacQuad	74.12	85.94	94.18	76.97
AnyTouch(同UniTouch数据)	TAG,Feel*,YCB,OF2.0	82.74	86.01	94.24	87.17
AnyTouch(全量)	9数据集	80.82	86.74	94.68	80.53

同等数据下 AnyTouch 四项全面超 UniTouch（材质 82.74 vs 61.3，抓取 87.17 vs 82.3）。
全量数据版在硬度/粗糙度最佳；Feel 上与 UniTouch 相当（即便 UniTouch 把 Feel 当已见数据）。
‡ 原版 TLV-Link 用"抓取后"帧（Feel 上更易），别的模型用"抓取中"帧；AnyTouch 若也用抓取后帧可达 99.0。
一个反复出现的现象：少数据版 TAG 材质反而更高（同表1道理），但更多多传感器数据提升硬度/粗糙度——因为后两者是二分类、更简单。

4.5 Q3-静态·未见传感器 OF1.0/OF2.0（表3，linear probing，材质准确率%）¶

方法	训练数据	OF1.0	OF2.0
CLIP	/	41.00	73.16
UniTouch	TAG,Feel,YCB-Slide,OF2.0*	41.3	85.4
UniTouch†	TAG,VisGel,TVL,SSVTP,OFReal,TacQuad	47.25	75.29
AnyTouch(同UniTouch数据)	TAG,Feel,YCB-Slide,OF2.0*	46.50	85.87
AnyTouch(全量)	9数据集	49.62	76.02

同数据下 AnyTouch 两集都超 UniTouch；全量版在未见 OF1.0 最高（49.62）→ 学语义级传感器无关特征确实利于跨传感器迁移。
（注：OF2.0 上 UniTouch 把它当已见数据，所以 85+ 偏高；全量 AnyTouch 76.02 是真·未见设置。）

4.6 Q3-真机动态·细粒度倒水（表4，图5）¶

任务：UFACTORY xArm 6 + Robotiq 2F-140 夹爪，仅靠触觉反馈，从初装 100g 珠子的杯里倒出 60g，5Hz 决策、每步在倒/等/收三动作里选。指标=倒出质量与目标的平均误差（g，越小越好），10 次平均。

方法	含动态感知模块	微调编码器(g)↓	冻结编码器(g)↓
CLIP	✘	5.22	49.1
T3 (训练数据~3M)	✘	2.33	9.74
AnyTouch(仅静态)	✘	2.45	9.60
AnyTouch(含动态)	✔	1.56	8.22

冻结时 CLIP 几乎做不了（49.1g，说明细粒度动态感知很难）。
仅静态版 AnyTouch 已与用更多数据的 T3 相当；加动态感知后误差降到 1.56g，最佳。→ 印证"静态+动态双视角"对真机任务的价值。

4.7 消融（附录表6，静态准确率%）¶

全量 AnyTouch 基线：TAG 80.82 / Feel 80.53 / OF1.0 49.62 / OF2.0 76.02。各去一项后的下降（节选）：

去掉	TAG	Feel	OF1.0	OF2.0
w/o 文本模态	75.91(↓4.91)	78.93(↓1.60)	48.87(↓0.75)	75.52(↓0.50)
w/o 视觉模态	74.55(↓6.27)	77.30(↓3.23)	48.12(↓1.50)	75.22(↓0.80)
w/o TacQuad里的文本	80.70(↓0.12)	80.19(↓0.34)	49.21(↓0.41)	75.91(↓0.11)
w/o 阶段1(像素级)	78.34(↓2.48)	78.62(↓1.91)	48.75(↓0.87)	76.08(↑0.06)
w/o 阶段2(语义级)	68.64(↓12.18)	72.39(↓8.14)	46.50(↓3.12)	73.09(↓2.93)
w/o 跨传感器匹配	80.54(↓0.28)	79.43(↓1.10)	49.25(↓0.37)	75.80(↓0.22)
w/o 动态感知	77.93(↓2.89)	79.28(↓1.25)	48.62(↓1.00)	75.70(↓0.32)
w/o universal sensor token	80.79(↓0.03)	79.03(↓1.53)	48.40(↓1.22)	75.40(↓0.62)

语义级阶段2最关键（去掉狂掉，OF2.0 甚至跌破 CLIP）→ 语义特征对综合感知与跨传感器泛化是核心。
跨传感器匹配 / universal token 的增益主要体现在"未见传感器"集（这些传感器还没进正样本对，潜力更大）。
去掉动态感知联合训练，静态也一致变差 → 动态训练反过来增强了静态感知。

4.8 跨传感器生成（附录表7，MSE↓）¶

验证表征质量：用 GelSight Mini 生成 DuraGel 图、用 DIGIT/GelSight Mini 重建 Tac3D 力场（Tac3D 对两模型都是未见传感器）。

模型	训练数据	GelSightMini→DuraGel	GelSightMini→Tac3D	DIGIT→Tac3D
T3	3.08M	0.2261	0.0167	0.0155
AnyTouch	2.48M	0.2159	0.0151	0.0144

用更少数据三项全胜 T3，包括对未见 Tac3D 力场的生成 → 印证统一表征 + 对齐数据集的价值。

5. 核心洞见¶

"对齐数据 + 多层级表征"双管齐下才是关键：光靠像素级(MAE)会按传感器聚类（不通用）；必须叠加语义级对齐 + 跨传感器匹配才能把不同传感器揉进同一空间、按物体聚类。
文本当锚比"视-触直接对齐"更鲁棒（跨仿真/真实场景一致），是弥合传感器 gap 的便宜杠杆。
静态/动态统一不是噱头：动态联合训练连静态任务都涨；真机倒水靠它拿到最佳。
universal sensor token 给"换硬件即用"提供了一条具体路径（推理时对新传感器统一用通用 token）。

6. 局限 / 存疑（作者附录 A.13 明确写了，诚实）¶

TacQuad 规模相对训练总量仍小（7万帧级 vs 训练总量 2M+），物体多样性有限。作者计划扩团队、复制标定平台扩量。
传感器种类少（仅 4 种，全是视触觉/力场式）；未研究同型号个体差异、gel 损坏等问题。
动态任务覆盖窄：真机只验了"倒水"一个任务。
帧数取舍：只用 T=3 帧（约 0.1s @30Hz）——为实时性牺牲长时序理解；更多帧可能更准但算力/延迟成本高（A.11 讨论）。
关于非视触觉传感器（温度/力矩等）只给了讨论性设想（A.12），未实做。

7. 对我们（深一层）¶

触觉统一表征的第二候选：与卡片-T3 对照——T3 处理不对齐异构数据靠共享 trunk + 3M 量；AnyTouch 主动采对齐数据 + 文本锚 + 跨传感器匹配，用更少数据(2.48M)在生成/感知上反超 T3。结论沿用卡片判断：有对齐多传感器数据时优先 AnyTouch（还自带文本对齐、便于接语言/VLA）；没有则用 T3。
与卡片-TVL 同源谱系：TVL（Touch-Vision-Language）是本文训练集之一、也是"触觉接语言"路线的前作；AnyTouch 把它从"单传感器三模态"推广到"多传感器统一空间"。
数据是护城河：TacQuad 的"标定平台精对齐 + 手持快粗对齐"双档采集法，正对应概念-机器人数据与标注里"成本 vs 精度"的核心权衡——粗对齐可手工扩量、是规模化的现实路径。
机制可借：① 文本当锚做跨域对齐（比直接配对鲁棒）；② 缺模态感知对比学习（batch 内按可用模态取子集，解决三模态数据稀缺）；③ universal sensor token 应对团队换硬件场景。
与动态预测路线互补：本文学"表征"（含下一帧预测做辅助），与卡片-TacForeSight 的"动态触觉预测"可对照（一个学统一表征、一个学动态预测）。
后续：已有 AnyTouch 2（arXiv 2602.09617, 2026）可一并跟。