type: 详读(中文全文摘要) 对应卡片: 卡片-T3 arxiv: "2406.13640" 来源: 全文精读(papers/T3-...2406.13640.pdf),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-28
详读 · T3:Transferable Tactile Transformers(MIT CSAIL, CoRL 2024)¶
比卡片详、比全文简的中文摘要。要更深 → 回
papers/T3-...2406.13640.pdf或 txt 交叉验证。
背景 / 动机¶
相机式触觉传感器(GelSight/DIGIT 等)高分辨、便宜,但极度异构:形状、相机数、打光、有无 marker 都不同,没有统一标准。导致每出一个新传感器或新任务,就得重采数据、从零训编码器,效率低(长程任务奖励稀疏时更糟)。直觉:不同传感器/任务间应有可共享的潜在信息。难点:不同硬件的触觉图无法对齐,所以依赖"对齐/距离函数"的对比学习(CLIP 式)在这里用不了。T3 目标 = 从不对齐的异构触觉数据学出可跨传感器/任务迁移的表征。
FoTa 数据集(论文的数据贡献)¶
- 规模:3,083,452 张触觉图,13 个传感器,11 个任务;统一 WebDataset 格式开源。
- 来源:聚合多个公开集(VisGel/Touch-and-Go/Calandra'17/ObjectFolder/YCB-Sight 等) + 作者自采(GelSight Wedge/Finray/Svelte/360、DenseTact2.0、GelSight Mini、DIGIT)。
- 自采用两套平台:7-DoF Franka(双触觉传感器探物体,记 SE(3) 位姿) + 3-DoF 龙门(CNC + 6 轴力矩 + 不同纹理探头)。
- 不足:不平衡——最流行的 2 个传感器占 >50%。
方法 / 架构¶
- 三段式:Ns 个传感器专属编码器 + 1 个共享 trunk + Nt 个任务专属解码器。一个 batch 始终来自同一"传感器-任务"对;据对选用对应编码器+解码器接到 trunk。
- 组件:trunk/编码器用 ViT;解码器按任务——MAE 重建用 ViT、位姿估计用 ResNet+MLP、分类用 MLP。相似传感器共享编码器(如 GelSight17 四变体共享)。
- 两阶段预训练:
- 阶段I:MAE 自监督(掩码重建),用 FoTa 全部数据(含无标签/难定义损失的)。掩码率 80% 最佳。
- 阶段II:有监督,用蒸馏出的任务标签训 10 个任务(分类=交叉熵;位姿/拉普拉斯方差回归=MSE)。
- 可选阶段III:用目标"传感器-任务"少量数据微调。
实验 / 消融(关键数字 📄)¶
- 预训练值不值:分类任务上,预训练比从头训中位 +24%;网络越大越好(large 比 tiny +19%,但 medium≈large);半量数据微调时预训练优势更明显(泛化更好、更省数据)。
- 掩码率:30%→80% 性能 85%→89%,80% 最优。
- 零样本迁移到新传感器(GelSight Svelte/DenseTact2.0):分类零样本仅略高于随机;位姿估计显著优于均值基线。微调 2000 点后:分类 +17%、DenseTact2.0 位姿 RMSE −5.5mm;Svelte 位姿微调前后接近最优。
- 长程亚毫米插拔(3/12/17-pin 电子件,0.4mm 间隙,2×GelSight Wedge on Franka,~2Hz/30步):用 T3 编码器比从头训触觉编码器 +25%、比无触觉 +53%;且减少探索步数。纯视觉在两个难件全失败。
局限(正文 §6)¶
- FoTa 不平衡(偏流行传感器);当前是 per-image 编码、阶段II/微调依赖显式标签 → 触觉图序列/稀疏标签是未来方向;仅限相机式触觉,不含 taxel/电子皮肤(如 TacVLA 的 15×8 阵列)。
🧰 对我们的可借用细节(怎么用)¶
- 直接用开源权重当跨传感器触觉编码器,不必从零训。若用我们自己的传感器:备 ~2000 条该传感器数据微调即可。
- 若我们传感器是 13 个已覆盖之一(GelSight Mini/DIGIT/Wedge 等),更省。
- 接"双隐空间"idea:T3 提供触觉那条腿的统一隐表征;与 AnyTouch 二选一(有对齐多传感器数据→AnyTouch;否则→T3)。
- 注意它只管相机式触觉;若我们用压阻阵列触觉(像 TacVLA),T3 不直接适用,需另寻(或自训)。
一句话¶
触觉表征的开源地基,几乎全可借,上手成本最低;但仅限相机式触觉。