FTP-1：把"杂牌触觉传感器"统一进一个通用触觉策略，还能迁移到没见过的传感器¶

📅 2026-06 · 🏛 清华/上海期智/Sharpa（Yang Gao 组，多机构合作） · 🏷 触觉基础策略(generalist tactile policy) 📌 一句话省流：视觉通才策略(π0.5 等)已经成了，但触觉策略一直被绑死在某一款传感器上——因为各家触觉硬件信号太异构。FTP-1 是第一个预训练的通用触觉策略：把图像式/阵列式/状态式三类触觉信号都塞进一个统一 token 空间(MTTS)，用一个共享"触觉专家"建模，在 ~3000h、21 种传感器上预训练；下游微调时不仅已见传感器涨点，连没见过的传感器也能迁移（成功率 +31%）。 ≈ 打比方：给触觉界做了个"π0.5 + T3"——π0.5 那套多专家 VLA 架构负责动作，T3 那套跨传感器编码负责把杂牌触觉图统一成通用表征。 🎬 演示/资源：项目页 ftp1-policy.github.io · 代码 · 权重(HF) · 数据集(ModelScope)

🧰 对我们（可用性速判）¶

对我们的用处：最直接对口的触觉×VLA 地基之一。它把"触觉喂进通用 VLA、还要跨传感器"这条正是我们纵线的核心难题给出了一个完整开源基线：架构(MTTS + 独立触觉专家)、数据(26 源聚合)、权重全放。要做触觉策略，可拿它当 finetune 起点或架构参照。
真实性(前期)：高。论文+代码+权重+数据全开源；跨 5 个机构、4 种传感器分布式验证(而非自家单点刷点)；含 NTP-1 消融证明涨点来自"可迁移触觉知识"而非数据分布。→ 证据 A。唯一保留：arXiv 预印本，暂无同行评审/第三方复现。
训练/微调资源：预训练很贵——48×NVIDIA H20、50k steps、global batch 768(权重已开，可不自训)；微调可接受——8×A800、每数据集 20k steps、batch 64。
能借多少(开源)：✅ 训练代码 + ✅ 预训练权重(HF, 50k step) + ✅ 数据集(ModelScope) + ✅ 复用了卡片-T3 的 image-type 共享编码器。四件套齐全。
可用性结论：直接可用 / 需微调。是这批触觉策略里开源最完整、最贴我们目标的之一。
📖 详读（按需）：暂未做（本卡已含全文要点；要深挖架构/附录再补 详读-FTP-1）

亮点到底在哪（读全文后定位）¶

亮点=统一异构触觉的接口设计 MTTS + 独立触觉专家。难点是不同触觉硬件"模态/分辨率/形态/接触响应"全不同，没法共用编码器。FTP-1 的解法：
MTTS(形态感知触觉 token 空间)：把触觉信号按手部/手指/腕的 24 个功能区组织，每区一个 token + 共享的"功能区嵌入"(左右手分开)；平行夹爪的两指传感器映到拇指尖/食指尖两个槽位。→ 用功能区而非像素当对齐锚点，绕开"触觉图无法逐像素对齐"的老问题。[1]
异构编码器分三类入 MTTS：图像式(如 GelSight)= 轻量 ViT + 共享 T3 触觉编码器取 [CLS]；阵列式(如 Contactile)= CNN 每功能区压一 token；状态式(力/扭矩)= Fourier 编码 + MLP。[1]
独立触觉专家(300M) ≠ 主流 adapter 注入：不像 Tactile-VLA 把触觉塞进 VLM 专家里，FTP-1 建一个独立触觉 Transformer 专家(基于 π0.5 多专家 + flow-matching 动作专家；动作专家 attend 触觉专家，反向不 attend)。好处:①未见传感器可复用预训练触觉专家②不扰动 VLM 已有知识③效率/性能更好。作者试过 MoE 等更复杂融合"没有稳定收益"，故取最简多专家。[1]
"惊喜"结论——跨未见传感器迁移：大规模异构预训练让触觉技能迁移到预训练没见过的传感器(Xense 图像式 / Contactile 阵列式)，成功率 +31.6%。这是论文自称"首次研究"的点。[2]

🧬 与其他工作的关系¶

承接 π0.5（[5]，多专家 + flow-matching 动作专家架构）与 T3（卡片-T3，直接复用其 image-type 共享 Transformer 触觉编码器）。相当于"π0.5 骨架 + T3 触觉编码 + 新的 MTTS 接口 + 独立触觉专家"。
区别/推进：把"通才策略范式"第一次系统搬到触觉；相比卡片-AnyTouch/卡片-Sparsh 这类触觉表征预训练，FTP-1 是端到端触觉策略(直接出动作)，且覆盖 image/array/state 三类模态、跨本体。
与 Tactile-VLA 同组对照：Tactile-VLA([9], 同 Yang Gao 组)是 adapter 注入路线，本文把它当基线并论证独立触觉专家更优——自家迭代。相关融合线还有 OmniVTLA/TacVLA/VLA-Touch(均在我们库有卡)。
同期撞车：UniVTAC([27], 2026-02) 提供了本文用的触觉仿真基准；OmniVTA 触觉世界模型([8])为并行方向。

关键数字（全文核实）¶

数据：~3000h，26 数据源，21 传感器(7 图像式 / 5 阵列式 / 9 状态式)；重采样后人类20% / 灵巧手30% / 夹爪50%；自采 Sharpa North-FTP-1(4000 条长时程灵巧手演示)。[1]
模型：触觉专家 300M Transformer；预训练 48×H20 / 50k steps / batch 768(超 50k 饱和)；微调 8×A800 / 20k steps / batch 64。[3]
UniVTAC 仿真(6 任务,100 rollout/任务)：FTP-1 平均 66.7%(去掉两个 Lift 任务 59.5%)，比次优 +17.5%；分项 Lift Bottle 97 / Pull-out Key 48 / Lift Can 65 / Put Bottle 47 / Insert Hole 64 / Insert Tube 79。[2]
真机·已见传感器(6 任务,20 rollout/任务)：平均 62.5%，比次优(竟是无触觉的 π0.5=45.3%) +17.2%；分项 Draw Balloon 45 / Fix Hand-Tear 80 / Fix Hand-Finish 40 / Twist Cap 65 / Flip Book 85 / Wipe Dish 60。[2]
真机·未见传感器(FlexivXense+TactileUMI,3 任务)：平均 46.6%，比 FTP-π0.5(15%) +31.6%；Insert Hanoi 55 / Insert USB 30 / Wipe Board 55。[2]
消融(NTP-1)：同架构同数据但预训练时去掉触觉；FlexivXense 上 FTP-1 比 NTP-1 +37.5% → 证明涨点来自"可迁移触觉知识"(假设2)而非数据分布(假设1)。[2]

🔎 证据与可信度（源头决定权重）¶

论文：arXiv 2606.13102（清华+上海期智+Sharpa+上交+Berkeley+ETH+复旦+上海创智；通讯 Yang Gao；v2 2026-06-19）✅ 全文已读。
代码/权重/数据：github(代码) + HuggingFace(权重) + ModelScope(数据集) ✅三者全开。
第三方评阅/复现：暂无（预印本；不过跨 5 机构分布式评测本身提供了较强的内部交叉验证）。
证据等级：A（论文+开源代码+开源数据+开源权重 + 多机构验证 + 消融充分）→ 权重：高。⚠️与卡片-T3 的 A 略有差别：T3 已 CoRL 发表，FTP-1 尚未同行评审——引用性能数字时注明"预印本口径"。

🧪 复现/采用成本（这是"拿来用"，不是从零复现）¶

直接用权重：下 HF 上 50k-step 权重当触觉策略起点，无需自跑 48×H20 预训练。
微调到自家传感器：8×A800 级算力、每任务几十~上百条演示(论文 Insert USB 仅 100 条、Wipe Board 50 条即可)；若传感器是 21 个已覆盖之一更省，未覆盖也能训 sensor-specific 编码器复用共享部分。
硬件：需对应触觉传感器(GelSight-Mini / Sharpa DTC / Xense / Contactile 等) + 机械臂/灵巧手。
侧证判价值：① 代码+权重+数据全开(最高) ② 多机构分布式验证 ③ 消融清楚(NTP-1) ④ 站在 π0.5+T3 成熟组件上。

🧱 局限（正文 §6 + 消融）¶

只做"触觉感知"，尚未做力/触觉伺服与底层力控(force servoing/control)——作者列为未来方向(接触觉预测→预测式低层控制)。这点对"需要精细力控"的任务是明显短板。
预训练数据规模/多样性仍有限，作者自认是"初步探索"，更大聚合数据集留待未来。
数据不平衡(靠重采样缓解)；预训练 50k step 已饱和，疑受数据规模限制。
预训练算力门槛高(48×H20)——好在权重已开，多数人只需微调。

💡 我的批注 / 判断¶

这是目前和我们"触觉×VLA"纵线最同频的一篇：它把我们关心的三件事(跨传感器统一表征 / 触觉如何融进通用 VLA / 跨本体迁移)在一个开源系统里打通了，且明确指出"adapter 注入触觉会干扰 VLM、长时程任务尤甚"——这条经验对我们做融合架构直接有用(独立触觉专家 > adapter)。
可落地动作：① 把 HF 权重拉下来在我们关心的传感器上试 finetune；② 借它的 MTTS"功能区 token"思路统一我们手头杂牌触觉；③ 注意它没做力控——若我们目标含精细力伺服，需在其上补(接 AdaptiveVTFusion / 力控 MoE 那批)。
谱系提醒：Yang Gao 组(清华)在触觉 VLA 上已成体系(Tactile-VLA→FTP-1)，值得作为重点跟踪团队并入实验室与团队名录。
⚠️ 预印本、无第三方复现；性能亮眼但引用前标注口径。

来源编号¶

[1] arXiv 2606.13102 §2(方法/MTTS/编码器/触觉专家/数据) · 本地 papers/FTP-1-GeneralistFoundationTactilePolicy-2606.13102.pdf（全文精读 2026-07-01）
[2] 同上 §3–§4(Tab.1/2/3 结果 + Fig.7 NTP-1 消融)
[3] 同上 App.D(训练设置：预训练 48×H20/50k/batch768；微调 8×A800/20k/batch64)