跳转至

FTP-1:把"杂牌触觉传感器"统一进一个通用触觉策略,还能迁移到没见过的传感器

📅 2026-06 · 🏛 清华/上海期智/Sharpa(Yang Gao 组,多机构合作) · 🏷 触觉基础策略(generalist tactile policy) 📌 一句话省流:视觉通才策略(π0.5 等)已经成了,但触觉策略一直被绑死在某一款传感器上——因为各家触觉硬件信号太异构。FTP-1 是第一个预训练的通用触觉策略:把图像式/阵列式/状态式三类触觉信号都塞进一个统一 token 空间(MTTS),用一个共享"触觉专家"建模,在 ~3000h、21 种传感器上预训练;下游微调时不仅已见传感器涨点,连没见过的传感器也能迁移(成功率 +31%)。 ≈ 打比方:给触觉界做了个"π0.5 + T3"——π0.5 那套多专家 VLA 架构负责动作,T3 那套跨传感器编码负责把杂牌触觉图统一成通用表征。 🎬 演示/资源:项目页 ftp1-policy.github.io · 代码 · 权重(HF) · 数据集(ModelScope)

🧰 对我们(可用性速判)

  • 对我们的用处最直接对口的触觉×VLA 地基之一。它把"触觉喂进通用 VLA、还要跨传感器"这条正是我们纵线的核心难题给出了一个完整开源基线:架构(MTTS + 独立触觉专家)、数据(26 源聚合)、权重全放。要做触觉策略,可拿它当 finetune 起点或架构参照。
  • 真实性(前期):高。论文+代码+权重+数据全开源;跨 5 个机构、4 种传感器分布式验证(而非自家单点刷点);含 NTP-1 消融证明涨点来自"可迁移触觉知识"而非数据分布。→ 证据 A。唯一保留:arXiv 预印本,暂无同行评审/第三方复现。
  • 训练/微调资源预训练很贵——48×NVIDIA H20、50k steps、global batch 768(权重已开,可不自训);微调可接受——8×A800、每数据集 20k steps、batch 64。
  • 能借多少(开源):✅ 训练代码 + ✅ 预训练权重(HF, 50k step) + ✅ 数据集(ModelScope) + ✅ 复用了 卡片-T3 的 image-type 共享编码器。四件套齐全
  • 可用性结论直接可用 / 需微调。是这批触觉策略里开源最完整、最贴我们目标的之一。
  • 📖 详读(按需):暂未做(本卡已含全文要点;要深挖架构/附录再补 详读-FTP-1

亮点到底在哪(读全文后定位)

  • 亮点=统一异构触觉的接口设计 MTTS + 独立触觉专家。难点是不同触觉硬件"模态/分辨率/形态/接触响应"全不同,没法共用编码器。FTP-1 的解法:
  • MTTS(形态感知触觉 token 空间):把触觉信号按手部/手指/腕的 24 个功能区组织,每区一个 token + 共享的"功能区嵌入"(左右手分开);平行夹爪的两指传感器映到拇指尖/食指尖两个槽位。→ 用功能区而非像素当对齐锚点,绕开"触觉图无法逐像素对齐"的老问题。[1]
  • 异构编码器分三类入 MTTS:图像式(如 GelSight)= 轻量 ViT + 共享 T3 触觉编码器取 [CLS];阵列式(如 Contactile)= CNN 每功能区压一 token;状态式(力/扭矩)= Fourier 编码 + MLP。[1]
  • 独立触觉专家(300M) ≠ 主流 adapter 注入:不像 Tactile-VLA 把触觉塞进 VLM 专家里,FTP-1 建一个独立触觉 Transformer 专家(基于 π0.5 多专家 + flow-matching 动作专家;动作专家 attend 触觉专家,反向不 attend)。好处:①未见传感器可复用预训练触觉专家②不扰动 VLM 已有知识③效率/性能更好。作者试过 MoE 等更复杂融合"没有稳定收益",故取最简多专家。[1]
  • "惊喜"结论——跨未见传感器迁移:大规模异构预训练让触觉技能迁移到预训练没见过的传感器(Xense 图像式 / Contactile 阵列式),成功率 +31.6%。这是论文自称"首次研究"的点。[2]

🧬 与其他工作的关系

  • 承接 π0.5([5],多专家 + flow-matching 动作专家架构)与 T3卡片-T3,直接复用其 image-type 共享 Transformer 触觉编码器)。相当于"π0.5 骨架 + T3 触觉编码 + 新的 MTTS 接口 + 独立触觉专家"。
  • 区别/推进:把"通才策略范式"第一次系统搬到触觉;相比 卡片-AnyTouch/卡片-Sparsh 这类触觉表征预训练,FTP-1 是端到端触觉策略(直接出动作),且覆盖 image/array/state 三类模态、跨本体。
  • 与 Tactile-VLA 同组对照:Tactile-VLA([9], 同 Yang Gao 组)是 adapter 注入路线,本文把它当基线并论证独立触觉专家更优——自家迭代。相关融合线还有 OmniVTLA/TacVLA/VLA-Touch(均在我们库有卡)。
  • 同期撞车:UniVTAC([27], 2026-02) 提供了本文用的触觉仿真基准;OmniVTA 触觉世界模型([8])为并行方向。

关键数字(全文核实)

  • 数据:~3000h,26 数据源,21 传感器(7 图像式 / 5 阵列式 / 9 状态式);重采样后 人类20% / 灵巧手30% / 夹爪50%;自采 Sharpa North-FTP-1(4000 条长时程灵巧手演示)。[1]
  • 模型:触觉专家 300M Transformer;预训练 48×H20 / 50k steps / batch 768(超 50k 饱和);微调 8×A800 / 20k steps / batch 64。[3]
  • UniVTAC 仿真(6 任务,100 rollout/任务):FTP-1 平均 66.7%(去掉两个 Lift 任务 59.5%),比次优 +17.5%;分项 Lift Bottle 97 / Pull-out Key 48 / Lift Can 65 / Put Bottle 47 / Insert Hole 64 / Insert Tube 79。[2]
  • 真机·已见传感器(6 任务,20 rollout/任务):平均 62.5%,比次优(竟是无触觉的 π0.5=45.3%) +17.2%;分项 Draw Balloon 45 / Fix Hand-Tear 80 / Fix Hand-Finish 40 / Twist Cap 65 / Flip Book 85 / Wipe Dish 60。[2]
  • 真机·未见传感器(FlexivXense+TactileUMI,3 任务):平均 46.6%,比 FTP-π0.5(15%) +31.6%;Insert Hanoi 55 / Insert USB 30 / Wipe Board 55。[2]
  • 消融(NTP-1):同架构同数据但预训练时去掉触觉;FlexivXense 上 FTP-1 比 NTP-1 +37.5% → 证明涨点来自"可迁移触觉知识"(假设2)而非数据分布(假设1)。[2]

🔎 证据与可信度(源头决定权重)

  • 论文arXiv 2606.13102(清华+上海期智+Sharpa+上交+Berkeley+ETH+复旦+上海创智;通讯 Yang Gao;v2 2026-06-19)✅ 全文已读。
  • 代码/权重/数据:github(代码) + HuggingFace(权重) + ModelScope(数据集) ✅三者全开
  • 第三方评阅/复现:暂无(预印本;不过跨 5 机构分布式评测本身提供了较强的内部交叉验证)。
  • 证据等级:A(论文+开源代码+开源数据+开源权重 + 多机构验证 + 消融充分)→ 权重:高。⚠️与 卡片-T3 的 A 略有差别:T3 已 CoRL 发表,FTP-1 尚未同行评审——引用性能数字时注明"预印本口径"。

🧪 复现/采用成本(这是"拿来用",不是从零复现)

  • 直接用权重:下 HF 上 50k-step 权重当触觉策略起点,无需自跑 48×H20 预训练
  • 微调到自家传感器:8×A800 级算力、每任务几十~上百条演示(论文 Insert USB 仅 100 条、Wipe Board 50 条即可);若传感器是 21 个已覆盖之一更省,未覆盖也能训 sensor-specific 编码器复用共享部分。
  • 硬件:需对应触觉传感器(GelSight-Mini / Sharpa DTC / Xense / Contactile 等) + 机械臂/灵巧手。
  • 侧证判价值:① 代码+权重+数据全开(最高) ② 多机构分布式验证 ③ 消融清楚(NTP-1) ④ 站在 π0.5+T3 成熟组件上。

🧱 局限(正文 §6 + 消融)

  • 只做"触觉感知",尚未做力/触觉伺服与底层力控(force servoing/control)——作者列为未来方向(接触觉预测→预测式低层控制)。这点对"需要精细力控"的任务是明显短板。
  • 预训练数据规模/多样性仍有限,作者自认是"初步探索",更大聚合数据集留待未来。
  • 数据不平衡(靠重采样缓解);预训练 50k step 已饱和,疑受数据规模限制。
  • 预训练算力门槛高(48×H20)——好在权重已开,多数人只需微调。

💡 我的批注 / 判断

  • 这是目前和我们"触觉×VLA"纵线最同频的一篇:它把我们关心的三件事(跨传感器统一表征 / 触觉如何融进通用 VLA / 跨本体迁移)在一个开源系统里打通了,且明确指出"adapter 注入触觉会干扰 VLM、长时程任务尤甚"——这条经验对我们做融合架构直接有用(独立触觉专家 > adapter)。
  • 可落地动作:① 把 HF 权重拉下来在我们关心的传感器上试 finetune;② 借它的 MTTS"功能区 token"思路统一我们手头杂牌触觉;③ 注意它没做力控——若我们目标含精细力伺服,需在其上补(接 AdaptiveVTFusion / 力控 MoE 那批)。
  • 谱系提醒:Yang Gao 组(清华)在触觉 VLA 上已成体系(Tactile-VLA→FTP-1),值得作为重点跟踪团队并入 实验室与团队名录
  • ⚠️ 预印本、无第三方复现;性能亮眼但引用前标注口径。

来源编号

  • [1] arXiv 2606.13102 §2(方法/MTTS/编码器/触觉专家/数据) · 本地 papers/FTP-1-GeneralistFoundationTactilePolicy-2606.13102.pdf(全文精读 2026-07-01)
  • [2] 同上 §3–§4(Tab.1/2/3 结果 + Fig.7 NTP-1 消融)
  • [3] 同上 App.D(训练设置:预训练 48×H20/50k/batch768;微调 8×A800/20k/batch64)