type: 详读（中文全文摘要）对应卡片: 卡片-T3 arxiv: "2406.13640" 来源: 全文精读(papers/T3-...2406.13640.pdf)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-28

详读 · T3：Transferable Tactile Transformers（MIT CSAIL, CoRL 2024）¶

比卡片详、比全文简的中文摘要。要更深 → 回 papers/T3-...2406.13640.pdf 或 txt 交叉验证。

背景 / 动机¶

相机式触觉传感器(GelSight/DIGIT 等)高分辨、便宜，但极度异构：形状、相机数、打光、有无 marker 都不同，没有统一标准。导致每出一个新传感器或新任务，就得重采数据、从零训编码器，效率低(长程任务奖励稀疏时更糟)。直觉：不同传感器/任务间应有可共享的潜在信息。难点：不同硬件的触觉图无法对齐，所以依赖"对齐/距离函数"的对比学习(CLIP 式)在这里用不了。T3 目标 = 从不对齐的异构触觉数据学出可跨传感器/任务迁移的表征。

FoTa 数据集（论文的数据贡献）¶

规模：3,083,452 张触觉图，13 个传感器，11 个任务；统一 WebDataset 格式开源。
来源：聚合多个公开集(VisGel/Touch-and-Go/Calandra'17/ObjectFolder/YCB-Sight 等) + 作者自采(GelSight Wedge/Finray/Svelte/360、DenseTact2.0、GelSight Mini、DIGIT)。
自采用两套平台：7-DoF Franka(双触觉传感器探物体,记 SE(3) 位姿) + 3-DoF 龙门(CNC + 6 轴力矩 + 不同纹理探头)。
不足：不平衡——最流行的 2 个传感器占 >50%。

方法 / 架构¶

三段式：Ns 个传感器专属编码器 + 1 个共享 trunk + Nt 个任务专属解码器。一个 batch 始终来自同一"传感器-任务"对；据对选用对应编码器+解码器接到 trunk。
组件：trunk/编码器用 ViT；解码器按任务——MAE 重建用 ViT、位姿估计用 ResNet+MLP、分类用 MLP。相似传感器共享编码器(如 GelSight17 四变体共享)。
两阶段预训练：
阶段I：MAE 自监督(掩码重建)，用 FoTa 全部数据(含无标签/难定义损失的)。掩码率 80% 最佳。
阶段II：有监督，用蒸馏出的任务标签训 10 个任务(分类=交叉熵；位姿/拉普拉斯方差回归=MSE)。
可选阶段III：用目标"传感器-任务"少量数据微调。

实验 / 消融（关键数字 📄）¶

预训练值不值：分类任务上，预训练比从头训中位 +24%；网络越大越好(large 比 tiny +19%，但 medium≈large)；半量数据微调时预训练优势更明显(泛化更好、更省数据)。
掩码率：30%→80% 性能 85%→89%，80% 最优。
零样本迁移到新传感器(GelSight Svelte/DenseTact2.0)：分类零样本仅略高于随机；位姿估计显著优于均值基线。微调 2000 点后：分类 +17%、DenseTact2.0 位姿 RMSE −5.5mm；Svelte 位姿微调前后接近最优。
长程亚毫米插拔(3/12/17-pin 电子件，0.4mm 间隙，2×GelSight Wedge on Franka，~2Hz/30步)：用 T3 编码器比从头训触觉编码器 +25%、比无触觉 +53%；且减少探索步数。纯视觉在两个难件全失败。

局限（正文 §6）¶

FoTa 不平衡(偏流行传感器)；当前是 per-image 编码、阶段II/微调依赖显式标签 → 触觉图序列/稀疏标签是未来方向；仅限相机式触觉，不含 taxel/电子皮肤(如 TacVLA 的 15×8 阵列)。

🧰 对我们的可借用细节（怎么用）¶

直接用开源权重当跨传感器触觉编码器，不必从零训。若用我们自己的传感器：备 ~2000 条该传感器数据微调即可。
若我们传感器是 13 个已覆盖之一(GelSight Mini/DIGIT/Wedge 等)，更省。
接"双隐空间"idea：T3 提供触觉那条腿的统一隐表征；与 AnyTouch 二选一(有对齐多传感器数据→AnyTouch；否则→T3)。
注意它只管相机式触觉；若我们用压阻阵列触觉(像 TacVLA)，T3 不直接适用，需另寻(或自训)。

一句话¶

触觉表征的开源地基,几乎全可借,上手成本最低;但仅限相机式触觉。