跳转至

详读 · Tactile-VLA(把"力"写进动作空间,解锁 VLM 的物理常识)

卡片版见 卡片-Tactile-VLA。本页是全文精读:动机 → 方法(逐模块) → 实验(全表) → 洞见/局限 → 对我们。 来源:arXiv 2507.09160(v1,2025-07-12)· 项目页 作者:Jialei Huang、Shuo Wang(共一) + Fanqi Lin、Yihang Hu、Chuan Wen、Yang Gao(通讯) 单位:清华大学 + 电子科技大学(UESTC) + 上海交大(SJTU)。(⚠️ 网传 survey 曾误写"英国 Surrey",已更正为清华 Yang Gao 组)

0. 一句话定位

现有 VLA 只会判断"做什么动作",不会控制"用多大力"。Tactile-VLA 的核心赌注:VLM 潜空间里其实已经懂"物体该怎么交互"的物理常识(轻拿火龙果、用力插充电器),只是没接到力传感上。做法是把目标接触力直接写进动作空间(动作 = 目标位置 P_target + 目标力 F_target),token 级深度融合视/语/触/本体,在 π0 上用 flow-matching 微调;再配一个混合位置-力控制器把"目标力"落成真实牛顿。结果:少量演示就把"softly/hard"这类语言零样本对应到具体力值。

1. 问题与动机

  • VLA 的短板:现有 VLA(卡片-RT-1/卡片-RT-2/卡片-π0/卡片-OpenVLA)擅长高层规划,但在接触密集任务里"落不了地"——精细力控是关键短板。
  • 触觉为什么重要:与视觉/语言这类高层语义不同,触觉给的是局部、瞬时动态的物理反馈(摩擦、顺应、材料敏感性),这是判断"接触状态"绕不开的信息。
  • 前人不够:已有把触觉塞进机器人框架的工作(FuSe、ForceVLA、3D-ViTac 等),但触觉多被当成"附加感知输入",不直接参与动作生成——力没有进策略的输出端。
  • Tactile-VLA 的切入:不是"再加一路传感器",而是主张把力做成动作空间的原生维度,让语言能直接调制"how"(怎么用力做),而不只是"which"(选哪个动作)。

2. 三大能力(图1 · 论文的卖点结构)

论文用三个维度组织全文(也是三个 RQ): - (a) 力觉指令跟随(Tactile-Aware Instruction Following):学会"softly/hard"这类力副词的物理含义,能把在 USB 任务上学到的"softly"零样本搬到充电器任务。 - (b) 力相关常识(Tactile-Relevant Common Sense):不给力指令,模型也会按物体属性自动选力——重铁球用大力、脆火龙果用轻力。 - (c) 涉触推理(Adaptive Tactile-Involved Reasoning):擦不掉时,根据触觉反馈自己推理失败原因、加大力、重试(CoT)。

3. 系统架构(图2 · 文字复述,原图为矢量未抽出)

  • 输入四模态分别编码 → 经预训练 VLM(Gemma 2.6B)做 token 级融合:
  • 视觉:预训练 ViT 编码近 H 帧(同 π0);
  • 触觉:一个简单 MLP 把 H 步触觉历史压成单个融合 token(表征接触的时间动态);
  • 语言:常规 tokenizer;本体状态一并进 prefix。
  • 拼成统一前缀序列 S_t(式1),用非因果注意力让视/语/触 token 自由互相 attend → 深度融合表示。
  • 表示喂给 Tactile-Aware Action Expert(300M),输出增广动作 a_t = [P_target, F_target](力直接进动作空间)。
  • 末端:混合位置-力控制器F_target 落成真实力(见 4.2)。
  • 虚线分支:Tactile-VLA-CoT 变体,用 VLM 自带 decoder 生成"内心独白"做自适应重规划(见 4.3)。

4. 方法详解

4.1 策略架构与学习

  • 关键设计 = force-in-action:把目标接触力 F_target 与目标位置 P_target 一起作为动作输出,由专家演示提供监督。"力进动作空间"让模型能学到并泛化交互强度——这是与"触觉仅当输入"路线的本质差别。
  • token 级融合(而非晚融合/路由)是为后面 CoT 推理服务的:让触觉信号能被 decoder 的语言推理直接引用。
  • 初始化 + 训练:共享部分用 π0 预训练权重初始化;新模块(触觉 MLP 编码器 + 改过的 action expert)随机初始化;整体用 Conditional Flow Matching (CFM) 端到端微调,损失同时惩罚运动学维度力维度的偏差。→ 正是这个损失"逼"模型去调用 VLM 潜藏的物理常识,建立"语言副词 → 具体牛顿力"(如 'gently' → 0.5N)的映射。

4.2 混合位置-力控制器(图2 末端)

  • position-dominant:承认多数操作由精确运动学主导,力控只在接触阶段需要(致敬 Raibert & Craig 1981 的 hybrid position/force)。
  • 间接力控(借 impedance control 思想,但目标是主动跟踪目标力而非被动顺应):测力误差 ΔF = F_target − F_measured,仅当 ‖ΔF‖ > τ(阈值,提升平滑性)时把力误差经增益矩阵 K 折成位置修正:

P_hybrid = P_target + K·ΔF (若 ‖ΔF‖ > τ) P_hybrid = P_target (若 ‖ΔF‖ ≤ τ)

再由 PID 把关节驱到 P_hybrid(式2)。 - 两条独立力通道(解耦):① 夹爪笛卡尔位置专管对物体的净外力;② 夹爪开口宽度并行管内部抓握力(物体被夹多紧)。

4.3 Tactile-VLA-CoT:基于推理的自适应

  • VLM 自带预训练 decoder 生成显式"内心独白",对失败(如打滑)做因果分析并给出修正动作。
  • 训练:一小批针对性演示,每条把"具体失败事件(如擦黑板打滑)+ 多模态传感流"配上"分析失败原因的语言标注"。双重作用:① 缓解灾难性遗忘、保住 VLM 通用推理;② 把推理扩展到触觉模态(学会从剪切力推断打滑、从法向力不足推断下压不够)。
  • 触发:固定间隔触发一次 CoT。Prompt 先问"任务成功了吗?"→ 若失败,用传感反馈分析原因(如"抓握力够,但法向力太低")→ 生成新的修正指令(如"再擦一次,下压更大")。图3 给了擦黑板的 Q/A 范例。

4.4 数据采集(图4)

图4 数据采集装置:UMI 手持夹爪 + 双触觉传感器 + GoPro + 3D 打印夹爪 - 为什么不用普通遥操作:人在遥操作时没有力反馈,采到的策略天然"不依赖触觉",与学习目标背道而驰。 - 方案:在 UMI(Universal Manipulation Interface,手持便携) 基础上改造,给夹爪加双高分辨率触觉传感器(可测法向 + 剪切力),让操作员能直接感到接触、做出"被力引导"的演示。 - 时间同步:每次采集前对齐各路时间戳;采集时 触觉 100Hz / 视觉 20Hz,再把高频触觉降采样对齐视觉帧 → 得到精确同步的 VLA-T 多模态数据集。 - ⚠️ 触觉传感器具体型号正文未公开(复现/可比性打折)。

5. 实验

三个 RQ 对应三组实验。基线:π0-base(通用 VLA flow 模型)、π0-fast(π0 变体)、Tactile-VLA(本法)、Tactile-VLA-CoT(带 CoT 推理)。 三大任务:充电器/USB 插拔桌面抓取擦板

5.1 RQ1 力觉指令跟随:USB→充电器零样本(图5a)

图5a 充电器插拔任务:双触觉夹爪把充电头插进插线板 - 设置:Task A(USB 插拔)训练数据带力副词语言("softly/hard"各 100 条演示);Task B(充电器插拔)只教运动、不给任何力语言(100 条)。测"softly/hard 能否零样本从 USB 迁到 charger"。 - 指标:成功率(%) + 充电器插入时的实测施加力(N)

Table 1 · USB/充电器插拔成功率(%)

模型 USB Charger
π0-base 5 40
π0-fast 0 25
Tactile-VLA 35 90

Table 2 · 不同指令下的实测施加力(N)(最硬的证据)

模型 USB 'softly' USB 'hard' USB 'gently' USB 'firmly' USB 'rigidly' USB 'harder' Charger 'softly'(零样本) Charger 'hard'(零样本)
π0 2.41 2.68 2.35 2.72 2.53 2.29 6.61 5.69
π0-fast 2.61 2.33 2.79 2.45 2.26 2.58 7.37 6.42
Tactile-VLA 0.51 2.57 0.75 1.98 2.42 2.94 4.68 9.13

读法(这张表是全文最强论据): - 学过的词:'softly'=0.51N、'hard'=2.57N,清楚分开。 - 没学过的近义词(内插):'gently'=0.75N、'firmly'=1.98N,落在合理中间值。 - 外推:'harder'=2.94N > 'hard'=2.57N,懂"更"。 - 零样本跨任务:迁到从没给过力语言的充电器,'softly'=4.68N « 'hard'=9.13N。 - 基线对照:π0/π0-fast 的力对副词完全无区分(USB 全在 2.3–2.8N),证明区分力来自本法的触觉融合,不是 base 自带。

5.2 RQ2 力相关常识:按物体属性自动选力(图5b、图6)

  • 设置:桌面抓取,物体分三类——Solid&Heavy 用大力 / Solid&Light 用中力 / Fragile&Light 用轻力。每物 50 条演示训练,6 个见过 + 6 个没见过(OOD)。判定成功 = 单次稳稳举起且无可见变形。每物 10 trials

Table 3 · 各类物体抓取成功率(%)(10 trials/物)

模型 Solid&Heavy (ID·ID·OOD·OOD) Solid&Light (ID·ID·OOD·OOD) Fragile&Light (ID·ID·OOD·OOD)
π0-base 100·80·30·60 60·70·40·30 50·0·0·0
π0-fast 70·60·10·70 70·50·30·40 40·10·0·0
Tactile-VLA 100·90·100·90 90·100·80·90 90·80·100·90

每类 4 个值按原表顺序≈(类内物1, 物2, OOD物1, OOD物2);逐物对位略有不确定(OCR),但类级结论稳: - 脆弱类(Fragile&Light)最能说明问题——π0 系列几乎全 0(抓爆/抓变形),Tactile-VLA 80–100%。 - 图6(柱状图,矢量未抽出)显示:对没见过的物体,模型也能按硬/中/脆自动给出大/中/小力——证明常识从 VLM 迁到了触觉模态。

5.3 RQ3 涉触推理:擦白板→擦黑板(图7、图3)

图6/动作 擦白板(in-domain,双触觉夹爪夹板擦) 图7 擦黑板(OOD,粉笔字需更大下压力,靠 CoT 推理加力擦掉) - 设置:训练只在白板上采(100 成功 + 100 失败,失败样本配"力太轻→需更大力→现在试 5N"这类纠错文本,训 CoT 模块)。测试零样本换到黑板(粉笔字需明显更大力,训练从没见过黑板)。指令仅"擦板"。 - 过程:先用默认 3.5N 擦黑板 → 失败 → CoT 推理出"力不够" → 自主加到 6.7N(比白板训练数据里用的 5N 高 34%)→ 擦掉。

Table 4 · 擦板成功率(%)

模型 In-Domain(白板) OOD(黑板)
π0-base 40 0
π0-fast 45 0
Tactile-VLA 80 15
Tactile-VLA-CoT 75 80

读法: - 无 CoT 的 Tactile-VLA 在白板上最高(80),但换黑板只有 15——能复现擦的动作、却不会主动加力。 - CoT 把黑板从 15 拉到 80(代价是白板略降 80→75)。这印证"涉触推理"的价值:基线只会重复同一个无效的小力动作,CoT 会读触觉失败信号并加力。

6. 诚实读数(数字里的取舍)

  • Tactile-VLA(无CoT) vs CoT 在白板上互有高低(80 vs 75):CoT 不是处处更好,它的收益集中在需要重规划的 OOD(黑板 15→80)。
  • USB 绝对成功率仍偏低(35%):作者归因于插拔本身的对位/接触难度;亮点在力的语义区分(Table 2)而非绝对成功率。
  • 力跟踪用的是"位置主导 + 间接力控":不是真正的力闭环伺服,而是把力误差折算成位置修正——工程上简单,但精度受 Kτ 与 PID 调参影响。

7. 核心洞见 / 未来

  • 一句话洞见:VLM 的先验不是缺知识,是缺 grounding(接通道)——把触觉接上、把力写进动作空间,少量演示就能"激活"已有的物理常识,得到零样本泛化。这是把 VLA 能力当"接通道"而非"加知识"的方法论。
  • 机制贡献:① force-in-action(力进动作空间)② token 级深融合(为 CoT 让路)③ 触觉作为可被语言推理引用的模态。
  • 未来(作者隐含):更细的滑移/失败检测、更多接触任务、长程任务。

8. 局限 / 存疑(⚠️ 原文无独立 Limitations 节,以下据全文推断)

  • 触觉传感器型号/规格未公开 → 复现与横向可比打折。
  • 代码/数据未放出:项目页 Coming Soon、正文无开源声明 → 复现性待定。[待核] 是否已更新放出。
  • 无独立消融表:所谓"消融"靠与 π0-base/π0-fast 对比(去掉触觉融合即退化),缺对各模块(CoT 触发频率、K/τ、解耦两通道)的拆解。
  • 任务窄:集中在插拔/抓取/擦拭三类,长程任务未测;力指标多为单点(插入力/抓握力/下压力)。
  • 强依赖 UMI 的力对齐采集,换平台/换本体的迁移性未知。
  • Table 3 逐物对位从 PDF 文本抽取,类内单物的 ID/OOD 归属略有不确定(类级结论可靠)。

9. 对我们(深一层)

  • 可直接借的设计 = force-in-action:比"把触觉当输入图片"更进一步,让语言→力可学、可泛化。我们做灵巧手/夹爪力控时可借这个动作空间设计。
  • 与本库三篇"不把触觉当 image"一致卡片-TacVLA卡片-TacForeSight(已有 详读-TacForeSight)、卡片-VLA-Touch 共同否掉"触觉=特殊图片"的表示路线——这是一条被多篇印证的判断。
  • 同生态/参考重叠:参考含 π0(卡片-π0)、UMI、FuSe、ForceVLA、Reactive Diffusion Policy(卡片-ReactiveDiffusionPolicy)、GelSight Wedge、3D-ViTac、ForceMimic——与本库高度重叠,可互为坐标。
  • 采数端对照 卡片-DexTeleop-0:DexTeleop-0 在采数端加指尖力把演示采精;Tactile-VLA 在 UMI 采数端加双触觉让演示"被力引导"——两者都点破"普通遥操作无力反馈→采到的策略不依赖触觉"这一痛点,路线同源。
  • CoT 读触觉做重规划:可借的范式——把力/触觉反馈喂给 VLM decoder 自我诊断失败,对接我们"失败重试/自适应力"的设想。
  • 互为对照:它高分辨率触觉把力做精、做泛化;我们若设想触觉、用腕力/预测(对照 卡片-AdapTac-PredictiveForceAttention),正好是"加感知 vs 省感知"两条相反路线的对照。