跳转至

详读 · TacVLA(接触感知门控的视-语-触动作模型)

卡片版见 卡片-TacVLA。本页是全文精读:动机 → 方法(逐模块) → 实验(全表) → 诚实局限 → 洞见 → 对我们。 来源:arXiv 2603.12665(v2, 2026-03-24, under review)· 项目页(含视频)· 代码"will be released",尚未放出。 作者:Kaidi Zhang、Heng Zhang(共一)、Zhengtong Xu、Zhiyuan Zhang、Md Rakibul Islam Prince、Xiang Li、Xiaojing Han、Yuhao Zhou、Arash Ajoudani(IIT 意大利理工)、Yu She(普渡 Purdue)。主力在普渡 Edwardson 工业工程学院 + IIT 人机交互实验室。

0. 一句话定位

在标准 VLA(基于 Pi0.5) 上加触觉,但不把触觉当图片:① 用 15×8 阵列 → MLP → 36 个低维 token 表示触觉;② 关键创新 contact-aware gating(接触感知门控)——只有检测到物理接触时才把触觉 token 放进注意力,没接触就清零屏蔽。卖点是在视觉遮挡 / 精细接触任务上比纯 VLA 大幅更稳。

1. 问题与动机

  • 当前 VLA 几乎只靠视觉+语言感知世界 → 三类场景吃瘪:① 视觉遮挡(末端执行器或被操作物自己挡住相机);② 精细接触密集任务(拆装/精插,视觉拍不到接触力/摩擦/表面纹理);③ 无接触反馈时遇到意外阻力/打滑无法动态调整
  • 已有把触觉塞进 VLA 的工作(TLA/VTLA/OmniVTLA/VLA-Touch/Tactile-VLA 等)暴露三个缺口:
  • 很少专门评测"持续精确接触控制"任务(如拆装 disassembly);
  • 鲁棒性研究不足——遮挡、人为扰动、动态接触变化普遍没测;
  • 多数把触觉当 image-like 稠密像素输入 → token 序列暴涨、算力上升;非接触阶段简单拼接触觉 token 还会稀释跨模态交互
  • 核心问题:触觉到底该怎么接进 VLA,才能既支持精细接触又不干扰?

2. 系统总览(图1,硬件)

图1 硬件平台:7-DoF Franka + 指面贴 15×8 触觉阵列 + 前置/腕部双相机(左上角放大为触觉传感器与压力热图) - 机械臂:7-DoF Franka Emika Panda + 平行夹爪。 - 视觉:2× RGB——固定前置相机(全局场景)+ 腕部相机(近距离)。 - 触觉:阵列传感器改自 [31](3D-ViTac, Binghao Huang 等),贴在其中一根手指表面,空间分辨率 15×8 = 每帧 120 个测点,编码接触压力分布。注意:是压阻/压力阵列不是 GelSight 类视触觉(无高分辨率几何)。

3. 方法

3.1 整体架构(Pi0.5 骨架 + 触觉支路)

四大组件:模态 tokenizer、预训练 VLM 骨架、action expert、接触感知门控模块。 - 视觉:前置+腕部图像各经 SigLIP 编码成视觉 token。 - 语言+本体:语言指令与机器人本体感受(proprioception) 用 PaliGemma tokenizer 编码。 - 触觉:15×8 触觉图经轻量 MLP 编码器投影成 36 个触觉 token,再加固定 2D sin-cos 位置编码保留空间结构。设计目标:紧凑又能表达局部接触模式 + 全局压力分布 + 接触几何。 - 拼接序列z̃_t = [z_vis_t , z_lan+pro_t , z̃_tac_t],全部 token 拼成共享序列喂进预训练 VLM,non-causal(非因果)注意力让视/语/触在前缀里自由互相 cross-attend。 - 动作:融合表示作为前缀给 action expert(沿用 Pi0.5 设计,Gemma 2.6B),用 flow-matching(流匹配) 目标训练,预测连续动作序列 a_{t:t+H} ~ π_θ(a_{t:t+H} | z̃_t)

3.2 接触感知门控(核心创新)

动机:非接触阶段触觉信号无信息,全程拼接触觉 token 会引入无用 attention token,甚至干扰。 - 接触检测 = 阈值启发式:当压力超过预设阈值的 taxel 数量超过固定计数时,判定接触,置接触标志 c_t = 1,否则 0。 - 门控方式 = 保持固定 token 结构、把触觉 token 当条件输入(不动态增删 token): - 注意力掩码:M_tac_t = c_t · 1(1 为与触觉 token 等长的全 1 向量) - 嵌入门控:z̃_tac_t = c_t · z_tac_t - 当 c_t = 0:触觉 token 被排除出注意力计算,无法参与跨模态交互;同时清零还抑制了嵌入层/位置编码的偏移,降低接触前的传感器噪声影响。 - 一句话:保持固定 token 拓扑,但按接触状态做"模态路由"——触觉只在物理上有信息时才影响决策。

3.3 训练

  • 微调方式:在 OpenPI 骨架 checkpoint(pi05 base) 上做 LoRA触觉编码器在微调中冻结
  • 所有模型统一 10,000 个梯度步、一致优化设置。
  • 数据:同步的 视觉 + 语言指令 + 触觉图 + 本体感受 + GT 动作轨迹。

3.4 数据采集

  • 真实世界数据集:4 个拆装任务 + 1 个箱内抓取每任务 50 条人类遥操作演示
  • 双相机 RGB;各任务有 prompt(见表1);所有模态 10 Hz 记录、时间对齐

4. 任务设计

4.1 四个"约束锁定"拆装任务(图2)

图2 四个不同几何约束的拆装任务 3D 模型:(a) 紧轴 tight shaft (b) 压卡扣 press clip (c) 转轴 shaft rotation (d) 滑拉 slide pull 零件被不同几何约束锁住,必须用特定动作(按压 / 旋拧 / 滑动)才能分离 → 需精细调整+适应接触变化,是检验触觉价值的理想场景。

表1 各任务语言 prompt

任务 Prompt(指令)
拆装-1 紧轴 Disassemble the object from the shaft and place it in the bowl.
拆装-2 压卡扣 Press the clip and pull the object out, then place it in the bowl.
拆装-3 转轴 Twist the object 90 degrees and pull it out from the shaft, then place it in the bowl.
拆装-4 滑拉 Slide the object inward and pull it out, then place it in the bowl.
箱内抓取 Explore inside the box until contact is established, then grasp the object and place it in the bowl.

4.2 真实流程(图3)

图3 真实实验流程时间轴:四个拆装任务(定位→闭合→特定动作→拔出→放入碗) + 箱内抓取(下移→探索→抓取→上移→放置),红框为触觉热图触发时刻 每个拆装任务都走 定位 → 闭合 → 任务特定动作(微调/压卡扣/转90°/滑入)→ 拔出 → 放入碗 的序列;红框标出接触触发触觉的关键帧。

4.3 箱内抓取(遮挡压力测试)

机器人要从受限空间取物:前置相机看不到箱内腕部相机箱内光照差且频繁遮挡 → 必须高度依赖触觉才能成功。

5. 实验结果(全表)

5.1 主表:拆装 + 箱内抓取成功率(每任务 20 trials)

表2 主结果

方法 拆装-1 拆装-2 拆装-3 拆装-4 拆装均值 箱内抓取
3D Diffusion Policy + Tactile 8/20 (40%) 8/20 (40%) 9/20 (45%) 0/20 (0%) 31.25% 1/20 (5%)
Diffusion Policy + Tactile 14/20 (70%) 14/20 (70%) 6/20 (30%) 5/20 (25%) 48.75% 0/20 (0%)
Finetuned Pi0.5(纯 VLA 基线) 16/20 (80%) 16/20 (80%) 13/20 (65%) 6/20 (30%) 63.75% 2/20 (10%)
TacVLA(本文) 20/20 (100%) 18/20 (90%) 14/20 (70%) 15/20 (75%) 83.75% 14/20 (70%)
  • 拆装均值 83.75% vs Pi0.5 63.75%(+20pp);最大提升在拆装-4 滑拉 +45pp(30%→75%,涉及精细滑动+部分遮挡)。
  • 箱内抓取 70% vs Pi0.5 10%(+60pp);diffusion 基线在遮挡下几乎全崩(5% / 0%)。
  • 定性:Pi0.5 在拆装-4 常卡在中间态、反复重抓(接触动态不确定);diffusion 类难以精确定位目标、建立稳定接触、接触后保持轨迹

5.2 消融:接触门控到底有没有用(表3)

表3 接触感知门控消融(每任务 20 trials)

方法 拆装-1 拆装-2 拆装-3 拆装-4 拆装均值 箱内抓取
Pi0.5 + Tactile(无门控,无条件常注入) 18/20 (90%) 16/20 (80%) 12/20 (60%) 11/20 (55%) 71.25% 8/20 (40%)
TacVLA(有门控) 20/20 (100%) 18/20 (90%) 14/20 (70%) 15/20 (75%) 83.75% 14/20 (70%)
  • 去掉门控:拆装均值 83.75% → 71.25%(-12.5pp);箱内抓取 70% → 40%(腰斩)
  • 关键负面证据:无门控在拆装-3 上 60% 反而低于"完全不加触觉"的 Pi0.5 65%粗暴融合触觉甚至会拖后腿,证明"加触觉"不等于"有用",门控是因果关键。

图4 无门控的典型失败案例:错位 Misalignment / 反复重抓 Regrasp / 抬起失败 Failed lift / 卡死 Stuck

定性(图4):无门控时触觉 token 在非接触阶段也常开 → 接近时错位、反复重抓、卡在中间态、抬起失败。即稳定接触建立前,无条件注入触觉会干扰视觉定位

5.3 鲁棒性

① 遮挡前置相机(图6 数据,每任务 20 trials)

任务 Finetuned Pi0.5 TacVLA
拆装-1 40% 70%
拆装-2 40% 65%
拆装-3 5% 45%
拆装-4 35% 70%
  • 遮挡下平均成功率从 ~30% 提到 60%+拆装-3 提升最大 +40pp
  • 卡片所记的"遮挡鲁棒 ~2.1×"即来自此(论文摘要写"2.1x improvement in scenarios with visual occlusion")。
  • 消融补充:遮挡下去掉门控会比 TacVLA 平均再掉约 25pp → 视觉不可靠时,常开触觉不足以补偿,状态相关激活才行

② 人为扰动(runtime disturbance):机器人操作中,人突然把物体放回箱里。TacVLA 能检测到状态突变 → 返回箱内重抓 → 继续任务(动态恢复 + 状态感知重规划);Pi0.5 基线无法恢复、取不回物体。(仅定性展示,无成功率表)

5.4 与 diffusion 基线对比的归因

作者把 TacVLA 大幅领先 diffusion 归因于架构与训练范式:TacVLA 建在预训练多模态骨架 + LoRA 微调上,能复用视觉-语言先验和结构化跨模态表示;diffusion 类从零在任务特定数据上训练,鲁棒性/泛化受限。(注:这是把"VLA 预训练优势"与"门控创新"混在一起解释领先,读者需自行拆分两者贡献。)

6. 诚实局限(作者自陈 + 我的补充)

作者明列三条: 1. 门控是二值阈值启发式:不能渐变、不可学,无法平滑调节模态重要性 → 更自适应的模态加权是改进方向。 2. 触觉空间分辨率低(15×8 阵列):只给高效接触状态信号,难做精细接触几何推理。 3. 只评测短程、接触密集任务:长程/更复杂任务的状态相关模态路由是 future work。

我补充的存疑: - 代码/数据未放("will be released")+ under review → 复现性待定,结论按 证据 B 用。 - 每任务仅 20 trials50 条演示,样本与任务范围有限。 - 人为扰动只有定性、无量化。 - 与 diffusion 的对比把"预训练骨架优势"算进了门控的功劳里,门控净增益最干净的证据是表3消融(+12.5pp / 箱内+30pp),而非对 diffusion 的碾压。

7. 核心洞见

  • 关键结论:触觉接进 VLA,"何时让它说话"比"给多高分辨率"更重要。低分辨率阵列 + 接触门控,就能在遮挡/精细接触上显著超过纯 VLA 与 diffusion;而无条件常开触觉甚至会掉到不如不加(拆装-3 反例)。
  • 设计取舍:固定 token 拓扑 + 状态相关掩码,比"动态增删 token"工程上更简单稳定,也更契合 transformer 前缀注意力。
  • 低维 token vs 图片:明确反对把触觉当稠密像素,36 token 既省序列又够用——和 OmniVTA/Tactile-VLA 的"语义对齐/高分辨"路线形成对照。

8. 对我们(深一层)

  • 门控思想是主收获:与 卡片-TacForeSight(可学 channel-wise α)、卡片-VLA-Touch(其"事件触发"未来方向)一道,确立"触觉按接触触发"为跨工作共识——直接否掉"触觉常开/当图片"的朴素做法。详见 详读-TacForeSight 对照。
  • 明确的改进起点:TacVLA 的门控是硬阈值二值卡片-TacForeSight 用的是可学门控。"可学门控 > 阈值门控"是个清晰的 potential idea,TacVLA 作者自己也把它列为 limitation #1。
  • 同骨架对照:base 是 卡片-π0.5(Pi0.5 + flow-matching + Gemma action expert),与我们关注的 VLA 主线(卡片-OpenVLA卡片-FD-VLA)同生态;触觉融合路线可与 卡片-Tactile-VLA卡片-OmniVTA卡片-VLA-Touch 横向比较。
  • 数据/硬件可借:触觉传感器改自 3D-ViTac(低成本压力阵列、非 GelSight),与我们"低成本无 GelSight"取向一致;遮挡场景(箱内抓取)是触觉价值最突出的 demo 设计,值得复用为评测范式。
  • 证据态度:under review + 无代码 → 按 B 用,放码/定稿再升级权重。