详读 · Tactile-VLA（把"力"写进动作空间，解锁 VLM 的物理常识）¶

卡片版见卡片-Tactile-VLA。本页是全文精读：动机 → 方法(逐模块) → 实验(全表) → 洞见/局限 → 对我们。来源：arXiv 2507.09160（v1，2025-07-12）· 项目页作者：Jialei Huang、Shuo Wang(共一) + Fanqi Lin、Yihang Hu、Chuan Wen、Yang Gao(通讯) 单位：清华大学 + 电子科技大学(UESTC) + 上海交大(SJTU)。（⚠️ 网传 survey 曾误写"英国 Surrey"，已更正为清华 Yang Gao 组）

0. 一句话定位¶

现有 VLA 只会判断"做什么动作"，不会控制"用多大力"。Tactile-VLA 的核心赌注：VLM 潜空间里其实已经懂"物体该怎么交互"的物理常识（轻拿火龙果、用力插充电器），只是没接到力传感上。做法是把目标接触力直接写进动作空间（动作 = 目标位置 P_target + 目标力 F_target），token 级深度融合视/语/触/本体，在 π0 上用 flow-matching 微调；再配一个混合位置-力控制器把"目标力"落成真实牛顿。结果：少量演示就把"softly/hard"这类语言零样本对应到具体力值。

1. 问题与动机¶

VLA 的短板：现有 VLA（卡片-RT-1/卡片-RT-2/卡片-π0/卡片-OpenVLA）擅长高层规划，但在接触密集任务里"落不了地"——精细力控是关键短板。
触觉为什么重要：与视觉/语言这类高层语义不同，触觉给的是局部、瞬时动态的物理反馈（摩擦、顺应、材料敏感性），这是判断"接触状态"绕不开的信息。
前人不够：已有把触觉塞进机器人框架的工作（FuSe、ForceVLA、3D-ViTac 等），但触觉多被当成"附加感知输入"，不直接参与动作生成——力没有进策略的输出端。
Tactile-VLA 的切入：不是"再加一路传感器"，而是主张把力做成动作空间的原生维度，让语言能直接调制"how"（怎么用力做），而不只是"which"（选哪个动作）。

2. 三大能力（图1 · 论文的卖点结构）¶

论文用三个维度组织全文（也是三个 RQ）： - (a) 力觉指令跟随（Tactile-Aware Instruction Following）：学会"softly/hard"这类力副词的物理含义，能把在 USB 任务上学到的"softly"零样本搬到充电器任务。 - (b) 力相关常识（Tactile-Relevant Common Sense）：不给力指令，模型也会按物体属性自动选力——重铁球用大力、脆火龙果用轻力。 - (c) 涉触推理（Adaptive Tactile-Involved Reasoning）：擦不掉时，根据触觉反馈自己推理失败原因、加大力、重试（CoT）。

3. 系统架构（图2 · 文字复述，原图为矢量未抽出）¶

输入四模态分别编码 → 经预训练 VLM（Gemma 2.6B）做 token 级融合：
视觉：预训练 ViT 编码近 H 帧（同 π0）；
触觉：一个简单 MLP 把 H 步触觉历史压成单个融合 token（表征接触的时间动态）；
语言：常规 tokenizer；本体状态一并进 prefix。
拼成统一前缀序列 S_t（式1），用非因果注意力让视/语/触 token 自由互相 attend → 深度融合表示。
表示喂给 Tactile-Aware Action Expert（300M），输出增广动作 a_t = [P_target, F_target]（力直接进动作空间）。
末端：混合位置-力控制器把 F_target 落成真实力（见 4.2）。
虚线分支：Tactile-VLA-CoT 变体，用 VLM 自带 decoder 生成"内心独白"做自适应重规划（见 4.3）。

4. 方法详解¶

4.1 策略架构与学习¶

关键设计 = force-in-action：把目标接触力 F_target 与目标位置 P_target 一起作为动作输出，由专家演示提供监督。"力进动作空间"让模型能学到并泛化交互强度——这是与"触觉仅当输入"路线的本质差别。
token 级融合（而非晚融合/路由）是为后面 CoT 推理服务的：让触觉信号能被 decoder 的语言推理直接引用。
初始化 + 训练：共享部分用 π0 预训练权重初始化；新模块（触觉 MLP 编码器 + 改过的 action expert）随机初始化；整体用 Conditional Flow Matching (CFM) 端到端微调，损失同时惩罚运动学维度与力维度的偏差。→ 正是这个损失"逼"模型去调用 VLM 潜藏的物理常识，建立"语言副词 → 具体牛顿力"（如 'gently' → 0.5N）的映射。

4.2 混合位置-力控制器（图2 末端）¶

position-dominant：承认多数操作由精确运动学主导，力控只在接触阶段需要（致敬 Raibert & Craig 1981 的 hybrid position/force）。
间接力控（借 impedance control 思想，但目标是主动跟踪目标力而非被动顺应）：测力误差 ΔF = F_target − F_measured，仅当 ‖ΔF‖ > τ（阈值，提升平滑性）时把力误差经增益矩阵 K 折成位置修正：

P_hybrid = P_target + K·ΔF (若 ‖ΔF‖ > τ) P_hybrid = P_target (若 ‖ΔF‖ ≤ τ)

再由 PID 把关节驱到 P_hybrid（式2）。 - 两条独立力通道（解耦）：① 夹爪笛卡尔位置专管对物体的净外力；② 夹爪开口宽度并行管内部抓握力（物体被夹多紧）。

4.3 Tactile-VLA-CoT：基于推理的自适应¶

用 VLM 自带预训练 decoder 生成显式"内心独白"，对失败（如打滑）做因果分析并给出修正动作。
训练：一小批针对性演示，每条把"具体失败事件（如擦黑板打滑）+ 多模态传感流"配上"分析失败原因的语言标注"。双重作用：① 缓解灾难性遗忘、保住 VLM 通用推理；② 把推理扩展到触觉模态（学会从剪切力推断打滑、从法向力不足推断下压不够）。
触发：固定间隔触发一次 CoT。Prompt 先问"任务成功了吗？"→ 若失败，用传感反馈分析原因（如"抓握力够，但法向力太低"）→ 生成新的修正指令（如"再擦一次，下压更大"）。图3 给了擦黑板的 Q/A 范例。

4.4 数据采集（图4）¶

图4 数据采集装置：UMI 手持夹爪 + 双触觉传感器 + GoPro + 3D 打印夹爪 - 为什么不用普通遥操作：人在遥操作时没有力反馈，采到的策略天然"不依赖触觉"，与学习目标背道而驰。 - 方案：在 UMI（Universal Manipulation Interface，手持便携） 基础上改造，给夹爪加双高分辨率触觉传感器（可测法向 + 剪切力），让操作员能直接感到接触、做出"被力引导"的演示。 - 时间同步：每次采集前对齐各路时间戳；采集时 触觉 100Hz / 视觉 20Hz，再把高频触觉降采样对齐视觉帧 → 得到精确同步的 VLA-T 多模态数据集。 - ⚠️ 触觉传感器具体型号正文未公开（复现/可比性打折）。

5. 实验¶

三个 RQ 对应三组实验。基线：π0-base（通用 VLA flow 模型）、π0-fast（π0 变体）、Tactile-VLA（本法）、Tactile-VLA-CoT（带 CoT 推理）。三大任务：充电器/USB 插拔、桌面抓取、擦板。

5.1 RQ1 力觉指令跟随：USB→充电器零样本（图5a）¶

图5a 充电器插拔任务：双触觉夹爪把充电头插进插线板 - 设置：Task A（USB 插拔）训练数据带力副词语言（"softly/hard"各 100 条演示）；Task B（充电器插拔）只教运动、不给任何力语言（100 条）。测"softly/hard 能否零样本从 USB 迁到 charger"。 - 指标：成功率(%) + 充电器插入时的实测施加力(N)。

Table 1 · USB/充电器插拔成功率(%)

模型	USB	Charger
π0-base	5	40
π0-fast	0	25
Tactile-VLA	35	90

Table 2 · 不同指令下的实测施加力(N)（最硬的证据）

模型	USB 'softly'	USB 'hard'	USB 'gently'	USB 'firmly'	USB 'rigidly'	USB 'harder'	Charger 'softly'(零样本)	Charger 'hard'(零样本)
π0	2.41	2.68	2.35	2.72	2.53	2.29	6.61	5.69
π0-fast	2.61	2.33	2.79	2.45	2.26	2.58	7.37	6.42
Tactile-VLA	0.51	2.57	0.75	1.98	2.42	2.94	4.68	9.13

读法（这张表是全文最强论据）： - 学过的词：'softly'=0.51N、'hard'=2.57N，清楚分开。 - 没学过的近义词（内插）：'gently'=0.75N、'firmly'=1.98N，落在合理中间值。 - 外推：'harder'=2.94N > 'hard'=2.57N，懂"更"。 - 零样本跨任务：迁到从没给过力语言的充电器，'softly'=4.68N « 'hard'=9.13N。 - 基线对照：π0/π0-fast 的力对副词完全无区分（USB 全在 2.3–2.8N），证明区分力来自本法的触觉融合，不是 base 自带。

5.2 RQ2 力相关常识：按物体属性自动选力（图5b、图6）¶

设置：桌面抓取，物体分三类——Solid&Heavy 用大力 / Solid&Light 用中力 / Fragile&Light 用轻力。每物 50 条演示训练，6 个见过 + 6 个没见过(OOD)。判定成功 = 单次稳稳举起且无可见变形。每物 10 trials。

Table 3 · 各类物体抓取成功率(%)（10 trials/物）

模型	Solid&Heavy (ID·ID·OOD·OOD)	Solid&Light (ID·ID·OOD·OOD)	Fragile&Light (ID·ID·OOD·OOD)
π0-base	100·80·30·60	60·70·40·30	50·0·0·0
π0-fast	70·60·10·70	70·50·30·40	40·10·0·0
Tactile-VLA	100·90·100·90	90·100·80·90	90·80·100·90

每类 4 个值按原表顺序≈(类内物1, 物2, OOD物1, OOD物2)；逐物对位略有不确定（OCR），但类级结论稳： - 脆弱类(Fragile&Light)最能说明问题——π0 系列几乎全 0（抓爆/抓变形），Tactile-VLA 80–100%。 - 图6（柱状图，矢量未抽出）显示：对没见过的物体，模型也能按硬/中/脆自动给出大/中/小力——证明常识从 VLM 迁到了触觉模态。

5.3 RQ3 涉触推理：擦白板→擦黑板（图7、图3）¶

图6/动作擦白板（in-domain，双触觉夹爪夹板擦）图7 擦黑板（OOD，粉笔字需更大下压力，靠 CoT 推理加力擦掉） - 设置：训练只在白板上采（100 成功 + 100 失败，失败样本配"力太轻→需更大力→现在试 5N"这类纠错文本，训 CoT 模块）。测试零样本换到黑板（粉笔字需明显更大力，训练从没见过黑板）。指令仅"擦板"。 - 过程：先用默认 3.5N 擦黑板 → 失败 → CoT 推理出"力不够" → 自主加到 6.7N（比白板训练数据里用的 5N 高 34%）→ 擦掉。

Table 4 · 擦板成功率(%)

模型	In-Domain(白板)	OOD(黑板)
π0-base	40	0
π0-fast	45	0
Tactile-VLA	80	15
Tactile-VLA-CoT	75	80

读法： - 无 CoT 的 Tactile-VLA 在白板上最高(80)，但换黑板只有 15——能复现擦的动作、却不会主动加力。 - CoT 把黑板从 15 拉到 80（代价是白板略降 80→75）。这印证"涉触推理"的价值：基线只会重复同一个无效的小力动作，CoT 会读触觉失败信号并加力。

6. 诚实读数（数字里的取舍）¶

Tactile-VLA(无CoT) vs CoT 在白板上互有高低（80 vs 75）：CoT 不是处处更好，它的收益集中在需要重规划的 OOD（黑板 15→80）。
USB 绝对成功率仍偏低（35%）：作者归因于插拔本身的对位/接触难度；亮点在力的语义区分（Table 2）而非绝对成功率。
力跟踪用的是"位置主导 + 间接力控"：不是真正的力闭环伺服，而是把力误差折算成位置修正——工程上简单，但精度受 K、τ 与 PID 调参影响。

7. 核心洞见 / 未来¶

一句话洞见：VLM 的先验不是缺知识，是缺 grounding（接通道）——把触觉接上、把力写进动作空间，少量演示就能"激活"已有的物理常识，得到零样本泛化。这是把 VLA 能力当"接通道"而非"加知识"的方法论。
机制贡献：① force-in-action（力进动作空间）② token 级深融合（为 CoT 让路）③ 触觉作为可被语言推理引用的模态。
未来（作者隐含）：更细的滑移/失败检测、更多接触任务、长程任务。

8. 局限 / 存疑（⚠️ 原文无独立 Limitations 节，以下据全文推断）¶

触觉传感器型号/规格未公开 → 复现与横向可比打折。
代码/数据未放出：项目页 Coming Soon、正文无开源声明 → 复现性待定。[待核] 是否已更新放出。
无独立消融表：所谓"消融"靠与 π0-base/π0-fast 对比（去掉触觉融合即退化），缺对各模块（CoT 触发频率、K/τ、解耦两通道）的拆解。
任务窄：集中在插拔/抓取/擦拭三类，长程任务未测；力指标多为单点(插入力/抓握力/下压力)。
强依赖 UMI 的力对齐采集，换平台/换本体的迁移性未知。
Table 3 逐物对位从 PDF 文本抽取，类内单物的 ID/OOD 归属略有不确定（类级结论可靠）。

9. 对我们（深一层）¶

可直接借的设计 = force-in-action：比"把触觉当输入图片"更进一步，让语言→力可学、可泛化。我们做灵巧手/夹爪力控时可借这个动作空间设计。
与本库三篇"不把触觉当 image"一致：卡片-TacVLA、卡片-TacForeSight（已有详读-TacForeSight）、卡片-VLA-Touch 共同否掉"触觉=特殊图片"的表示路线——这是一条被多篇印证的判断。
同生态/参考重叠：参考含 π0(卡片-π0)、UMI、FuSe、ForceVLA、Reactive Diffusion Policy(卡片-ReactiveDiffusionPolicy)、GelSight Wedge、3D-ViTac、ForceMimic——与本库高度重叠，可互为坐标。
采数端对照卡片-DexTeleop-0：DexTeleop-0 在采数端加指尖力把演示采精；Tactile-VLA 在 UMI 采数端加双触觉让演示"被力引导"——两者都点破"普通遥操作无力反馈→采到的策略不依赖触觉"这一痛点，路线同源。
CoT 读触觉做重规划：可借的范式——把力/触觉反馈喂给 VLM decoder 自我诊断失败，对接我们"失败重试/自适应力"的设想。
互为对照：它加高分辨率触觉把力做精、做泛化；我们若设想减触觉、用腕力/预测（对照卡片-AdapTac-PredictiveForceAttention），正好是"加感知 vs 省感知"两条相反路线的对照。