跳转至

详读 · T-Rex(把触觉做成 VLA 里的高频反应专家)

卡片版见 卡片-T-Rex。本页是全文精读:动机 → 方法(逐模块) → 训练配方 → 数据/硬件 → 实验(全表) → 基线 → 失败模式/局限 → 洞见/对我们 → 审稿视角。 来源:arXiv 2606.17055 v2(2026-06-18)· 项目页 · 代码 作者:Dantong Niu、Zhuoyang Liu、Zekai Wang(共一) + … + Fei-Fei Li、Ken Goldberg、Jitendra Malik、Pieter Abbeel、Yuke Zhu、Danfei Xu、Jim(Linxi) Fan、Trevor Darrell 单位:UC Berkeley + NVIDIA + Stanford + Panasonic + La Sapienza + ItalAI ⚠️ 域名是 tactile-**rex**(T-Rex = Tactile-Reactive dexterous),常被误写成 tactile-rec。

0. 一句话定位

现有 VLA 要么忽略触觉、要么只用静态触觉编码,无法"边摸边即时反应"。T-Rex 三管齐下:① 100h 触觉同步双臂数据集(按运动基元组织);② 变速率 Mixture-of-Transformer-Experts(MoT)——把控制拆成低频动作专家 + 高频触觉专家,两者在同一条流匹配轨迹的不相交去噪区间分工(异步级联流匹配);③ 时序触觉 VQ-VAE 压缩高频力信号。12 任务平均 65%,比最强基线 EgoScale(35%) 高 +30pt

1. 问题与动机

敏捷灵巧靠的是对触觉的即时闭环反应(滑一张薄卡入槽、拿钥匙开锁),远快于视觉控制回路。把触觉塞进 VLA 面临三道坎: - 数据稀缺:现有大规模预训练几乎全是视觉,缺力变化/微滑/局部形变;从零采同步视触觉数据太贵。 - 频率错配:触觉反应要高频,标准 VLM 骨干是低频;已有 dual-system 把快慢完全分离,变速率扩散策略又局限在并爪任务级模仿学习。 - 静态触觉编码:多数把触觉当静态线索,未利用其天然高频动态。 - T-Rex 的切入触觉能力不必进预训练,可在专门的 mid-training 阶段高效注入;架构上用统一 MoT,低频动作专家做基线操作、高频触觉专家做残差精修。

2. 方法总览(图3)

T-Rex = MoT 骨干(3 专家)+ 时空触觉编码器。策略 π_θ 吃 RGB 观测 o_t、语言 ℓ、力历史 f_{t−H:t}、形变图 d_t,用条件流匹配生成未来动作块 A_{t:t+H}(式1:学向量场 v_θ(x_τ,τ|c_t) 回归 x_1−x_0,x_0=干净动作、x_1=高斯噪声)。

3. 逐模块方法

3.1 变速率 MoT 三专家

  • Latent 专家:处理视觉+语言,预测未来视觉表征(提供时序 grounding,做辅助损失 L_future)。骨干 Qwen3VL-2B(2048 隐维、28 层、Flash Attention 2、1.41B)。
  • Action 专家:低频,把动作从纯噪声去噪到中间时刻 τ_split(1.41B,共享 Qwen3VL-2B 骨干)。
  • Tactile 专家:高频,复用缓存的视觉-语言上下文(KV),从 τ_split 继续去噪到 τ=0,用实时触觉精修出最终动作块。轻量(0.62B,FFN 中间维仅 1536、无视觉骨干)。
  • 动作维度 62、动作块长 16。

3.2 异步级联流匹配(核心机制,图3 + Algorithm 1)

  • 切轨迹:在固定 τ_split=0.4 处切开。Action 专家去噪 τ∈[0.4,1](慢流,每个动作块跑一次,N=10 欧拉步中的 K_slow=6 步),产出中间动作 x̂_{τ_split};Tactile 专家接手 τ∈[0,0.4](快流,K_fast=4 步)。
  • 共享速度目标:两专家回归同一 v=ε−A_demo(式3),但在不相交 τ 区间不同条件下——Action 专家只吃多模态隐上下文 c_vl(式8);Tactile 专家完全不看原始视觉*,只吃高频触觉 token c_tac + 从慢流 detach 出来的 KV_τsplit(式9,torch.no_grad 取缓存)。
  • KV 缓存重编码:KV_τsplit = [KV_lat, KV_act@τsplit],动作位置在 τ_split 处重新编码,让触觉专家 attend 到"部分去噪后"的连贯上下文,而非初始噪声时刻的编码。
  • 延迟增强(关键 trick):部署时快 tick 在块内偏移异步跑,视觉缓存与实时触觉存在时间错位。训练时抽 δ∼Uniform{0,4,8,12} 随机错位 c_tac 相对 c_vl 的帧,匹配部署期的错位分布,防止过拟合"完美同步"。
  • 算力摊销:快 tick 时视觉塔/Latent/Action 专家都不重算,每控制步成本只由轻量 Tactile 专家的 K_fast 步主导。
  • 线程安全:部署用单线程请求 socket + 显式执行锁,串行化两专家——高频快 tick 必等在途慢 tick 把 KV 与边界态提交完才启动。
  • 训练采样:τ_act∼Beta(1.5,1.0) on (0,1];τ_tac=τ_split·τ̃, τ̃∼Beta(1.5,1.0) on (0,τ_split]。总损失 L = L_act + λ_tac·L_tac + λ_future·L_future,λ_tac=1.0、λ_future=0.5(式10)。Action 专家在全 (0,1] 域训练以保留独立生成能力、与预训练范式一致。

3.3 时空触觉编码(App C)

  • VQ-VAE 力编码器:每指 6D 力取 T=16 帧窗 → 1D 时序卷积(两个 strided 块层次下采样)+ 时序均值池化 → 256 维连续嵌入 → 量化到码本(K=64)。码本 EMA 更新 + 欠用项按批激活重播种防塌缩。幅值加权 MSE 让高力接触帧权重更高(防码本塌到非接触态)。五指共享卷积权重 + 各指身份嵌入。产出:每指每手一个离散、抗漂移的 token,构成"触觉词表"。
  • 形变编码器:每指端一张单通道形变深度图(捕获边缘/滑移/剪切等力向量丢失的接触几何)。用 ResNet-18 改(单通道 stem、只留前 3 个残差 stage、各接 3×3 卷积投到 128 通道)。自监督卷积自编码器预训练后冻结,不扩策略可训参数。
  • 合成(式2):z_τ = [VQ(E_f(f_{t−15:t})); Proj_f(f_t); Proj_d(E_d(d_t))]——VQ 力历史 token + 直投当前力 + 形变特征拼接。不把触觉当图片

4. 训练配方(三段,§4.3 + Table 4)

  1. 人类第一视角预训练:沿用 卡片-EgoScale,在 22,889h 人类第一视角视频上预训练 latent+action 专家(学视觉语言表征 + retarget 人手臂动作,统一动作空间)。无触觉专家
  2. 触觉接地 mid-training:用自采 100h 触觉同步双臂遥操作数据,把 action 专家适配到机器人多视观测/可执行动作,并训练 tactile 专家做高频去噪精修。
  3. 技能后训练:每任务约 100 演示微调,适配具体任务同时保留反应式行为。
  4. 配置:Qwen3VL-2B;AdamW,峰值 LR 1e-4,余弦到 0;H100 × 24;DeepSpeed Zero-1;per-device batch 16;bf16;梯度裁剪 1.0。

5. 数据集(App G)

  • 规模:100h、200+ 日常物体、22 运动基元、7700+ 轨迹;遥操作员采集历时 10 周。按"动词-名词"组织,非按任务。
  • 场景多样性6 种桌面背景;干扰物池 >210 件、每场景 0–5 个;每 episode 随机初始位姿。
  • 数据清洗:剔除触觉不稳/传感器损坏/遥操失败异常运动、极端关节速度等。
  • 语言标注:商用 VLM 喂 4–6 帧头相机图 + 目标物名 + 基元名 → 生成一句祈使指令,再由人工核验去幻觉
  • 发布:计划 MIT 许可放出原始传感器流 + 触觉表征 + 语言标注 + 数据加载/预处理脚本。

6. 硬件与遥操作(App D,图7)

  • 机器人:Dexmate Vega-1 双臂移动底座,每臂 7 关节;只驱动 14 个手臂关节(轮/躯干/头固定)。相对末端位姿命令经 Pink(Pinocchio) 差分 IK → 低通 → 厂商级联 PID,300Hz 低层控制线程与策略推理线程并发。
  • Sharpa Wave 22-DoF 灵巧手 ×2;每手 5 个指尖触觉传感器,各记形变深度 + 6 轴合力/力矩(net wrench)
  • 相机:头部 1× ZED X Mini(取左单目 RGB)+ 腕部 2× ZED X One S 广角;均 640×360
  • 遥操作Manus 手套(指尖位置 → 经 Pinocchio+CasADi IK retarget 到 Sharpa 手)+ 2× VIVE tracker(SE(3) 腕位姿);高层线程 30Hz、低层 300Hz。

7. 实验(全表)

主表 Table 1 — 12 任务成功率(%),每任务 16 rollouts

方法 Flip Page Transfer Egg Wipe Plate Apply Paste Split Cup Sort Mahjong Open Lock Refill Tablet Acid-Base Extract Card Deal Poker Screw Bulb Avg
ViTacFormer 9 0 4 1 4 7 0 0 0 2 2 1 3
RDP 12 8 18 2 6 9 2 0 0 1 2 7 6
Tactile-VLA 38 14 24 0 21 27 8 0 9 4 11 18 15
EgoScale 68 44 34 38 33 36 19 12 43 41 28 18 35
π0.5 36 17 28 13 18 32 5 1 24 8 9 11 17
π0.5 + tactile 8 9 27 2 4 14 2 0 7 3 0 0 6
T-Rex(Ours) 96 75 69 66 78 65 47 41 76 70 57 35 65
  • 两点观察:① 大规模预训练必不可少(从零的小模型 ViTacFormer/RDP 全线垫底;EgoScale 因人类第一视角+手姿监督最强基线);② 触觉对接触密集操作关键(纯预训练的 EgoScale 仍在精细力控/力敏行为上失败)。
  • ⚠️ 反直觉π0.5+tactile(6) < π0.5(17)——粗暴把触觉当额外条件塞给预训练 VLA 反而掉分,坐实"融合方式比有无更重要"。

消融 Table 2 — 6 任务平均

配置 平均 Δ
Full Model 65
w/o Tactile 42 −23
MLP Force + Deform 58 −7
Deform only 54 −11
MLP Force + VQVAE Force 59 −6
w/o Async 60 −5

→ 去触觉是最大单因素落差;VQ-VAE 力编码 > 朴素 MLP;异步机制有实打实增益。

训练配方 Table 3 — 6 任务平均

人类预训练 触觉 mid-training 平均
18
34
45
65

→ 两段都不可省。

其它图

  • Fig4(τ_split):非单调,中间值(≈0.4)最好——太小则 action 专家提供的视觉运动先验不足,太大则 tactile 专家精修容量不够。
  • Fig5(数据效率):有 T-Rex mid-training 时,10–200 演示的低数据区成功率远高于无 mid-training。
  • Fig6(mid-training 数据集):T-Rex 100h(按基元组织)vs 同预算 11 任务专用 100h——前者泛化/零样本更强;mid-training 后已具 pick/slide/press/wipe 的零样本接触能力。

8. 基线复现(App E,都在同一机器人/动作/评测协议下)

  • ViTacFormer:ACT 基座,chunk 100、隐 512、FFN 3200、KL 10;6D 每指力当触觉条件;21→22 DoF 适配(去掉关节 mask)。每任务 100 演示×100 epoch。
  • RDP:Asymmetric Tokenizer + Latent Diffusion Policy 两段;10 指 6D 力当高频条件。
  • Tactile-VLA:原用 GelSight 图,这里改成 10 指 6D 力 + Simple-MLP 编码器。
  • EgoScale用 GR00T N1.7 复现、从 nvidia/GR00T-N1.7-3B 初始化;相对末端 + 22-DoF 手。
  • π0.5 / π0.5+tactile:OpenPI 代码库、π0.5 预训练权重;tactile 版把 10 指 6D 力单步拼进 state。

9. 失败模式(App H,图20,六类)

  1. 物体碰撞(拧灯泡):抓起后没对准插座、撞底座 → 缺细粒度视觉对齐 + 动作过快。
  2. 滑脱(开锁):滑入抓到钥匙但握持不稳掉落 → 小物精细 in-hand 灵巧不足(遥操数据分布所限)。
  3. 定位不准(转移鸡蛋):靠力反馈护住鸡蛋但没放进托盘 → BC 固有分布偏移。
  4. 多指摩擦(打麻将):拇指过低误触旁边牌、同时打开两盒 → 单指级协调不足、多指误触。
  5. 用力过度(挤牙膏):抓管后挤太多 → 序列预测机制的过强控制在可变形物上暴露。
  6. 滑移错位(抽卡):抽卡时用力不均 → 需在时间维建立更强触觉条件。

10. 局限(§7)

  • 长程 + 高精度接触协调任务遥操作难采 → 建议未来接 RL / 在线交互精修。
  • 硬件瓶颈:传感器畸变、跨设备标定漂移缺手掌稠密触觉(无法整手操作)。
  • 异构触觉传感器尚无统一表征,列为 future work。

11. 洞见 / 对我们

  • "贵模态放最省的阶段":触觉能力不进最贵的预训练、改在 mid-training 注入——把稀缺模态从最贵阶段挪到便宜有效阶段,是可迁移的数据方法论(与 卡片-EgoScale "人类视频扛规模、机器人数据只需少量对齐"同构)。
  • "融合方式 > 有无触觉":π0.5+tactile 掉分是最有价值的负面证据,与 卡片-Tactile-VLA(force 进动作空间)、卡片-TacVLA(接触门控)、卡片-TacForeSight 的共识一致——触觉不能当 image、也不能粗暴当额外 token 硬塞
  • 架构血统:慢-快双流承自 卡片-ReactiveDiffusionPolicy(RDP,但只做并爪+任务级 IL),T-Rex 把它推广到灵巧手 + VLA 基础模型 + 预训练;预训练承自 卡片-EgoScale。等于"RDP 的反应式 × EgoScale 的规模化 × 好触觉编码"。
  • 可拆借的最小单元:时序触觉 VQ-VAE(幅值加权码本)、异步级联去噪 + 延迟增强、形变图冻结 SSL 编码器——这几块可单独迁到我们关注的视触觉策略上试。

12. 🧑‍⚖️ 审稿人视角(🤖 我的判断,可信度最低、需人复核)

  • 强点:数据+架构+benchmark 三位一体、消融充分(去触觉/编码器/异步/配方/数据效率都做了)、有 limitations + 失败模式分析、代码+数据开源(MIT)、作者阵容顶配。证据档按本库标准 🔶(自采 benchmark、无第三方复现)。
  • 可疑/待验证:① 12 任务、每任务仅 16 rollouts,样本量偏小,方差未报;② benchmark 全自采、baseline 全自复现(如 Tactile-VLA 从 GelSight 图改成 6D 力、可能未发挥其原设计),跨设定比较需谨慎——ViTacFormer 在此仅 3% 不代表其原论文表现;③ τ_split/K/码本大小在其硬件调优,换平台未必最优;④ 全链路复现门槛极高(Vega-1 + Sharpa 手 + 22,889h 预训练)。
  • 一句话:目前触觉×VLA 数据/架构/benchmark 最完整的一篇,宜作主线锚点;但"65% vs 35%"是自家赛场自家规则,等独立复现再下"SOTA"定论。