跳转至

type: 详读(中文全文摘要) domain: 感知·触觉 / 大脑·学习方法 对应卡片: 卡片-FTP-1 arxiv: "2606.13102" 来源: 全文精读(arXiv txt 正文 v2),🤖Claude 摘译,关键数字📄来自正文 date: 2026-07-04


详读 · FTP-1:首个跨触觉传感器的通才基础触觉策略(清华 Yang Gao 组 + Sharpa,2026-06)

一、问题与核心主张

  • 问题:视觉通才策略(π0.5 等)成功了,但触觉策略仍绑死固定本体/传感器——因触觉信号跨硬件极度异构(模态/分辨率/形态/接触响应各异),跨传感器泛化难。
  • 主张首个通才基础触觉策略——单一策略吸收异构触觉经验,迁移到预训练没见过的传感器与本体

二、方法

  • MTTS(形态感知触觉 token 空间,核心):统一接口,把触觉组织成 24 个功能区 token(0-14 手部功能区、15-20 腕/指力矩、并联夹爪映到拇指尖/食指尖 slot 0/1),每 token 加共享功能区 embedding(左右手分开)。→ 不同传感器信号按功能区归组、投到同一空间。
  • 异构触觉编码器:每个传感器信号先按 MTTS 功能区归组,再按 image/array/state 三种观测类型分别编码进 MTTS token。
  • 多专家基础策略架构:Tactile Expert + VL Expert(SigLIP+语言) + Action Expert;共享触觉 Transformer 专家联合建模触觉 token 学可复用表征与技能。动作用 统一动作空间 UAS 处理控制异构。
  • FTP-1-Dataset:26 数据源聚合、~3000 小时人+机器人演示、21 种触觉传感器,全部经 MTTS 标准化。

三、关键结果(📄)

  • 分布式评测:把预训练 checkpoint 发给全球 5 家机构各自在不同硬件微调,覆盖 4 种触觉传感器、14 个任务(在手调整/力控按压/插拔/长程精细灵巧)。
  • seen 传感器 +17.2%2 个未见传感器 setup 上 +31%(31.6%)——跨传感器迁移是最强卖点。消融确认增益来自可迁移触觉技能(非单纯多数据)。

四、局限(🤖 读后判断)

  • MTTS 的 24 功能区是人工定义的形态先验——对形态差异极大的新传感器,功能区映射是否总成立待验。
  • 触觉数据仍需各机构自采微调;"通才"体现在初始化,下游仍要少量本体数据。

五、开源 / 出处

  • arXiv 2606.13102 v2(2026-06);清华(Yang Gao)+ 上海期智 + Sharpa + 上交 + Berkeley + ETH + 复旦。模型/数据/代码全开源(ftp1-policy.github.io)。

六、对我们(精读后判断,🤖)

  • 触觉侧的"通才基础模型"落地:与本库触觉表征线(卡片-T3 跨传感器表征、卡片-AnyTouch 多传感器统一、卡片-Sparsh)一脉,但 FTP-1 更进一步——直接做成通才策略(policy)而非只做表征,且跨传感器迁移有量化增益。是"触觉版 π0.5"。
  • MTTS(功能区 token) 思路可借:把异构触觉按"功能区"统一 token 化,是解决"跨传感器"的一个具体接口——对我们关心的"跨设备标定漂移/异构传感器统一"(库内反复出现的瓶颈)是正面参照。
  • 血统与 卡片-ViTacFormer/卡片-T-Rex(Sharpa/Berkeley 灵巧手线)、卡片-Tactile-VLA(Yang Gao 组)交叉——清华 Yang Gao + Sharpa 是触觉操作的一个强联合体,值得持续盯。