详读 · TacVLA(接触感知门控的视-语-触动作模型)¶
卡片版见 卡片-TacVLA。本页是全文精读:动机 → 方法(逐模块) → 实验(全表) → 诚实局限 → 洞见 → 对我们。 来源:arXiv 2603.12665(v2, 2026-03-24, under review)· 项目页(含视频)· 代码"will be released",尚未放出。 作者:Kaidi Zhang、Heng Zhang(共一)、Zhengtong Xu、Zhiyuan Zhang、Md Rakibul Islam Prince、Xiang Li、Xiaojing Han、Yuhao Zhou、Arash Ajoudani(IIT 意大利理工)、Yu She(普渡 Purdue)。主力在普渡 Edwardson 工业工程学院 + IIT 人机交互实验室。
0. 一句话定位¶
在标准 VLA(基于 Pi0.5) 上加触觉,但不把触觉当图片:① 用 15×8 阵列 → MLP → 36 个低维 token 表示触觉;② 关键创新 contact-aware gating(接触感知门控)——只有检测到物理接触时才把触觉 token 放进注意力,没接触就清零屏蔽。卖点是在视觉遮挡 / 精细接触任务上比纯 VLA 大幅更稳。
1. 问题与动机¶
- 当前 VLA 几乎只靠视觉+语言感知世界 → 三类场景吃瘪:① 视觉遮挡(末端执行器或被操作物自己挡住相机);② 精细接触密集任务(拆装/精插,视觉拍不到接触力/摩擦/表面纹理);③ 无接触反馈时遇到意外阻力/打滑无法动态调整。
- 已有把触觉塞进 VLA 的工作(TLA/VTLA/OmniVTLA/VLA-Touch/Tactile-VLA 等)暴露三个缺口:
- 很少专门评测"持续精确接触控制"任务(如拆装 disassembly);
- 鲁棒性研究不足——遮挡、人为扰动、动态接触变化普遍没测;
- 多数把触觉当 image-like 稠密像素输入 → token 序列暴涨、算力上升;非接触阶段简单拼接触觉 token 还会稀释跨模态交互。
- 核心问题:触觉到底该怎么接进 VLA,才能既支持精细接触又不干扰?
2. 系统总览(图1,硬件)¶
- 机械臂:7-DoF Franka Emika Panda + 平行夹爪。
- 视觉:2× RGB——固定前置相机(全局场景)+ 腕部相机(近距离)。
- 触觉:阵列传感器改自 [31](3D-ViTac, Binghao Huang 等),贴在其中一根手指表面,空间分辨率 15×8 = 每帧 120 个测点,编码接触压力分布。注意:是压阻/压力阵列,不是 GelSight 类视触觉(无高分辨率几何)。
3. 方法¶
3.1 整体架构(Pi0.5 骨架 + 触觉支路)¶
四大组件:模态 tokenizer、预训练 VLM 骨架、action expert、接触感知门控模块。
- 视觉:前置+腕部图像各经 SigLIP 编码成视觉 token。
- 语言+本体:语言指令与机器人本体感受(proprioception) 用 PaliGemma tokenizer 编码。
- 触觉:15×8 触觉图经轻量 MLP 编码器投影成 36 个触觉 token,再加固定 2D sin-cos 位置编码保留空间结构。设计目标:紧凑又能表达局部接触模式 + 全局压力分布 + 接触几何。
- 拼接序列:z̃_t = [z_vis_t , z_lan+pro_t , z̃_tac_t],全部 token 拼成共享序列喂进预训练 VLM,non-causal(非因果)注意力让视/语/触在前缀里自由互相 cross-attend。
- 动作:融合表示作为前缀给 action expert(沿用 Pi0.5 设计,Gemma 2.6B),用 flow-matching(流匹配) 目标训练,预测连续动作序列 a_{t:t+H} ~ π_θ(a_{t:t+H} | z̃_t)。
3.2 接触感知门控(核心创新)¶
动机:非接触阶段触觉信号无信息,全程拼接触觉 token 会引入无用 attention token,甚至干扰。
- 接触检测 = 阈值启发式:当压力超过预设阈值的 taxel 数量超过固定计数时,判定接触,置接触标志 c_t = 1,否则 0。
- 门控方式 = 保持固定 token 结构、把触觉 token 当条件输入(不动态增删 token):
- 注意力掩码:M_tac_t = c_t · 1(1 为与触觉 token 等长的全 1 向量)
- 嵌入门控:z̃_tac_t = c_t · z_tac_t
- 当 c_t = 0:触觉 token 被排除出注意力计算,无法参与跨模态交互;同时清零还抑制了嵌入层/位置编码的偏移,降低接触前的传感器噪声影响。
- 一句话:保持固定 token 拓扑,但按接触状态做"模态路由"——触觉只在物理上有信息时才影响决策。
3.3 训练¶
- 微调方式:在 OpenPI 骨架 checkpoint(pi05 base) 上做 LoRA;触觉编码器在微调中冻结。
- 所有模型统一 10,000 个梯度步、一致优化设置。
- 数据:同步的 视觉 + 语言指令 + 触觉图 + 本体感受 + GT 动作轨迹。
3.4 数据采集¶
- 真实世界数据集:4 个拆装任务 + 1 个箱内抓取,每任务 50 条人类遥操作演示。
- 双相机 RGB;各任务有 prompt(见表1);所有模态 10 Hz 记录、时间对齐。
4. 任务设计¶
4.1 四个"约束锁定"拆装任务(图2)¶
零件被不同几何约束锁住,必须用特定动作(按压 / 旋拧 / 滑动)才能分离 → 需精细调整+适应接触变化,是检验触觉价值的理想场景。
表1 各任务语言 prompt
| 任务 | Prompt(指令) |
|---|---|
| 拆装-1 紧轴 | Disassemble the object from the shaft and place it in the bowl. |
| 拆装-2 压卡扣 | Press the clip and pull the object out, then place it in the bowl. |
| 拆装-3 转轴 | Twist the object 90 degrees and pull it out from the shaft, then place it in the bowl. |
| 拆装-4 滑拉 | Slide the object inward and pull it out, then place it in the bowl. |
| 箱内抓取 | Explore inside the box until contact is established, then grasp the object and place it in the bowl. |
4.2 真实流程(图3)¶
每个拆装任务都走 定位 → 闭合 → 任务特定动作(微调/压卡扣/转90°/滑入)→ 拔出 → 放入碗 的序列;红框标出接触触发触觉的关键帧。
4.3 箱内抓取(遮挡压力测试)¶
机器人要从受限空间取物:前置相机看不到箱内、腕部相机箱内光照差且频繁遮挡 → 必须高度依赖触觉才能成功。
5. 实验结果(全表)¶
5.1 主表:拆装 + 箱内抓取成功率(每任务 20 trials)¶
表2 主结果
| 方法 | 拆装-1 | 拆装-2 | 拆装-3 | 拆装-4 | 拆装均值 | 箱内抓取 |
|---|---|---|---|---|---|---|
| 3D Diffusion Policy + Tactile | 8/20 (40%) | 8/20 (40%) | 9/20 (45%) | 0/20 (0%) | 31.25% | 1/20 (5%) |
| Diffusion Policy + Tactile | 14/20 (70%) | 14/20 (70%) | 6/20 (30%) | 5/20 (25%) | 48.75% | 0/20 (0%) |
| Finetuned Pi0.5(纯 VLA 基线) | 16/20 (80%) | 16/20 (80%) | 13/20 (65%) | 6/20 (30%) | 63.75% | 2/20 (10%) |
| TacVLA(本文) | 20/20 (100%) | 18/20 (90%) | 14/20 (70%) | 15/20 (75%) | 83.75% | 14/20 (70%) |
- 拆装均值 83.75% vs Pi0.5 63.75%(+20pp);最大提升在拆装-4 滑拉 +45pp(30%→75%,涉及精细滑动+部分遮挡)。
- 箱内抓取 70% vs Pi0.5 10%(+60pp);diffusion 基线在遮挡下几乎全崩(5% / 0%)。
- 定性:Pi0.5 在拆装-4 常卡在中间态、反复重抓(接触动态不确定);diffusion 类难以精确定位目标、建立稳定接触、接触后保持轨迹。
5.2 消融:接触门控到底有没有用(表3)¶
表3 接触感知门控消融(每任务 20 trials)
| 方法 | 拆装-1 | 拆装-2 | 拆装-3 | 拆装-4 | 拆装均值 | 箱内抓取 |
|---|---|---|---|---|---|---|
| Pi0.5 + Tactile(无门控,无条件常注入) | 18/20 (90%) | 16/20 (80%) | 12/20 (60%) | 11/20 (55%) | 71.25% | 8/20 (40%) |
| TacVLA(有门控) | 20/20 (100%) | 18/20 (90%) | 14/20 (70%) | 15/20 (75%) | 83.75% | 14/20 (70%) |
- 去掉门控:拆装均值 83.75% → 71.25%(-12.5pp);箱内抓取 70% → 40%(腰斩)。
- 关键负面证据:无门控在拆装-3 上 60% 反而低于"完全不加触觉"的 Pi0.5 65% → 粗暴融合触觉甚至会拖后腿,证明"加触觉"不等于"有用",门控是因果关键。

定性(图4):无门控时触觉 token 在非接触阶段也常开 → 接近时错位、反复重抓、卡在中间态、抬起失败。即稳定接触建立前,无条件注入触觉会干扰视觉定位。
5.3 鲁棒性¶
① 遮挡前置相机(图6 数据,每任务 20 trials)
| 任务 | Finetuned Pi0.5 | TacVLA |
|---|---|---|
| 拆装-1 | 40% | 70% |
| 拆装-2 | 40% | 65% |
| 拆装-3 | 5% | 45% |
| 拆装-4 | 35% | 70% |
- 遮挡下平均成功率从 ~30% 提到 60%+;拆装-3 提升最大 +40pp。
- 卡片所记的"遮挡鲁棒 ~2.1×"即来自此(论文摘要写"2.1x improvement in scenarios with visual occlusion")。
- 消融补充:遮挡下去掉门控会比 TacVLA 平均再掉约 25pp → 视觉不可靠时,常开触觉不足以补偿,状态相关激活才行。
② 人为扰动(runtime disturbance):机器人操作中,人突然把物体放回箱里。TacVLA 能检测到状态突变 → 返回箱内重抓 → 继续任务(动态恢复 + 状态感知重规划);Pi0.5 基线无法恢复、取不回物体。(仅定性展示,无成功率表)
5.4 与 diffusion 基线对比的归因¶
作者把 TacVLA 大幅领先 diffusion 归因于架构与训练范式:TacVLA 建在预训练多模态骨架 + LoRA 微调上,能复用视觉-语言先验和结构化跨模态表示;diffusion 类从零在任务特定数据上训练,鲁棒性/泛化受限。(注:这是把"VLA 预训练优势"与"门控创新"混在一起解释领先,读者需自行拆分两者贡献。)
6. 诚实局限(作者自陈 + 我的补充)¶
作者明列三条: 1. 门控是二值阈值启发式:不能渐变、不可学,无法平滑调节模态重要性 → 更自适应的模态加权是改进方向。 2. 触觉空间分辨率低(15×8 阵列):只给高效接触状态信号,难做精细接触几何推理。 3. 只评测短程、接触密集任务:长程/更复杂任务的状态相关模态路由是 future work。
我补充的存疑: - 代码/数据未放("will be released")+ under review → 复现性待定,结论按 证据 B 用。 - 每任务仅 20 trials、50 条演示,样本与任务范围有限。 - 人为扰动只有定性、无量化。 - 与 diffusion 的对比把"预训练骨架优势"算进了门控的功劳里,门控净增益最干净的证据是表3消融(+12.5pp / 箱内+30pp),而非对 diffusion 的碾压。
7. 核心洞见¶
- 关键结论:触觉接进 VLA,"何时让它说话"比"给多高分辨率"更重要。低分辨率阵列 + 接触门控,就能在遮挡/精细接触上显著超过纯 VLA 与 diffusion;而无条件常开触觉甚至会掉到不如不加(拆装-3 反例)。
- 设计取舍:固定 token 拓扑 + 状态相关掩码,比"动态增删 token"工程上更简单稳定,也更契合 transformer 前缀注意力。
- 低维 token vs 图片:明确反对把触觉当稠密像素,36 token 既省序列又够用——和 OmniVTA/Tactile-VLA 的"语义对齐/高分辨"路线形成对照。
8. 对我们(深一层)¶
- 门控思想是主收获:与 卡片-TacForeSight(可学 channel-wise α)、卡片-VLA-Touch(其"事件触发"未来方向)一道,确立"触觉按接触触发"为跨工作共识——直接否掉"触觉常开/当图片"的朴素做法。详见 详读-TacForeSight 对照。
- 明确的改进起点:TacVLA 的门控是硬阈值二值;卡片-TacForeSight 用的是可学门控。"可学门控 > 阈值门控"是个清晰的 potential idea,TacVLA 作者自己也把它列为 limitation #1。
- 同骨架对照:base 是 卡片-π0.5(Pi0.5 + flow-matching + Gemma action expert),与我们关注的 VLA 主线(卡片-OpenVLA、卡片-FD-VLA)同生态;触觉融合路线可与 卡片-Tactile-VLA、卡片-OmniVTA、卡片-VLA-Touch 横向比较。
- 数据/硬件可借:触觉传感器改自 3D-ViTac(低成本压力阵列、非 GelSight),与我们"低成本无 GelSight"取向一致;遮挡场景(箱内抓取)是触觉价值最突出的 demo 设计,值得复用为评测范式。
- 证据态度:under review + 无代码 → 按 B 用,放码/定稿再升级权重。