详读 · T-Rex（把触觉做成 VLA 里的高频反应专家）¶

卡片版见卡片-T-Rex。本页是全文精读：动机 → 方法(逐模块) → 训练配方 → 数据/硬件 → 实验(全表) → 基线 → 失败模式/局限 → 洞见/对我们 → 审稿视角。来源：arXiv 2606.17055 v2（2026-06-18）· 项目页 · 代码作者：Dantong Niu、Zhuoyang Liu、Zekai Wang(共一) + … + Fei-Fei Li、Ken Goldberg、Jitendra Malik、Pieter Abbeel、Yuke Zhu、Danfei Xu、Jim(Linxi) Fan、Trevor Darrell 单位：UC Berkeley + NVIDIA + Stanford + Panasonic + La Sapienza + ItalAI ⚠️ 域名是 tactile-**rex**（T-Rex = Tactile-Reactive dexterous），常被误写成 tactile-rec。

0. 一句话定位¶

现有 VLA 要么忽略触觉、要么只用静态触觉编码，无法"边摸边即时反应"。T-Rex 三管齐下：① 100h 触觉同步双臂数据集（按运动基元组织）；② 变速率 Mixture-of-Transformer-Experts（MoT）——把控制拆成低频动作专家 + 高频触觉专家，两者在同一条流匹配轨迹的不相交去噪区间分工（异步级联流匹配）；③ 时序触觉 VQ-VAE 压缩高频力信号。12 任务平均 65%，比最强基线 EgoScale(35%) 高 +30pt。

1. 问题与动机¶

敏捷灵巧靠的是对触觉的即时闭环反应（滑一张薄卡入槽、拿钥匙开锁），远快于视觉控制回路。把触觉塞进 VLA 面临三道坎： - 数据稀缺：现有大规模预训练几乎全是视觉，缺力变化/微滑/局部形变；从零采同步视触觉数据太贵。 - 频率错配：触觉反应要高频，标准 VLM 骨干是低频；已有 dual-system 把快慢完全分离，变速率扩散策略又局限在并爪任务级模仿学习。 - 静态触觉编码：多数把触觉当静态线索，未利用其天然高频动态。 - T-Rex 的切入：触觉能力不必进预训练，可在专门的 mid-training 阶段高效注入；架构上用统一 MoT，低频动作专家做基线操作、高频触觉专家做残差精修。

2. 方法总览（图3）¶

T-Rex = MoT 骨干（3 专家）+ 时空触觉编码器。策略 π_θ 吃 RGB 观测 o_t、语言 ℓ、力历史 f_{t−H:t}、形变图 d_t，用条件流匹配生成未来动作块 A_{t:t+H}（式1：学向量场 v_θ(x_τ,τ|c_t) 回归 x_1−x_0，x_0=干净动作、x_1=高斯噪声）。

3. 逐模块方法¶

3.1 变速率 MoT 三专家¶

Latent 专家：处理视觉+语言，预测未来视觉表征（提供时序 grounding，做辅助损失 L_future）。骨干 Qwen3VL-2B（2048 隐维、28 层、Flash Attention 2、1.41B）。
Action 专家：低频，把动作从纯噪声去噪到中间时刻 τ_split（1.41B，共享 Qwen3VL-2B 骨干）。
Tactile 专家：高频，复用缓存的视觉-语言上下文（KV），从 τ_split 继续去噪到 τ=0，用实时触觉精修出最终动作块。轻量（0.62B，FFN 中间维仅 1536、无视觉骨干）。
动作维度 62、动作块长 16。

3.2 异步级联流匹配（核心机制，图3 + Algorithm 1）¶

切轨迹：在固定 τ_split=0.4 处切开。Action 专家去噪 τ∈[0.4,1]（慢流，每个动作块跑一次，N=10 欧拉步中的 K_slow=6 步），产出中间动作 x̂_{τ_split}；Tactile 专家接手 τ∈[0,0.4]（快流，K_fast=4 步）。
共享速度目标：两专家回归同一 v=ε−A_demo（式3），但在不相交 τ 区间、不同条件下——Action 专家只吃多模态隐上下文 c_vl（式8）；Tactile 专家完全不看原始视觉*，只吃高频触觉 token c_tac + 从慢流 detach 出来的 KV_τsplit（式9，torch.no_grad 取缓存）。
KV 缓存重编码：KV_τsplit = [KV_lat, KV_act@τsplit]，动作位置在 τ_split 处重新编码，让触觉专家 attend 到"部分去噪后"的连贯上下文，而非初始噪声时刻的编码。
延迟增强（关键 trick）：部署时快 tick 在块内偏移异步跑，视觉缓存与实时触觉存在时间错位。训练时抽 δ∼Uniform{0,4,8,12} 随机错位 c_tac 相对 c_vl 的帧，匹配部署期的错位分布，防止过拟合"完美同步"。
算力摊销：快 tick 时视觉塔/Latent/Action 专家都不重算，每控制步成本只由轻量 Tactile 专家的 K_fast 步主导。
线程安全：部署用单线程请求 socket + 显式执行锁，串行化两专家——高频快 tick 必等在途慢 tick 把 KV 与边界态提交完才启动。
训练采样：τ_act∼Beta(1.5,1.0) on (0,1]；τ_tac=τ_split·τ̃, τ̃∼Beta(1.5,1.0) on (0,τ_split]。总损失 L = L_act + λ_tac·L_tac + λ_future·L_future，λ_tac=1.0、λ_future=0.5（式10）。Action 专家在全 (0,1] 域训练以保留独立生成能力、与预训练范式一致。

3.3 时空触觉编码（App C）¶

VQ-VAE 力编码器：每指 6D 力取 T=16 帧窗 → 1D 时序卷积（两个 strided 块层次下采样）+ 时序均值池化 → 256 维连续嵌入 → 量化到码本（K=64）。码本 EMA 更新 + 欠用项按批激活重播种防塌缩。幅值加权 MSE 让高力接触帧权重更高（防码本塌到非接触态）。五指共享卷积权重 + 各指身份嵌入。产出：每指每手一个离散、抗漂移的 token，构成"触觉词表"。
形变编码器：每指端一张单通道形变深度图（捕获边缘/滑移/剪切等力向量丢失的接触几何）。用 ResNet-18 改（单通道 stem、只留前 3 个残差 stage、各接 3×3 卷积投到 128 通道）。自监督卷积自编码器预训练后冻结，不扩策略可训参数。
合成（式2）：z_τ = [VQ(E_f(f_{t−15:t})); Proj_f(f_t); Proj_d(E_d(d_t))]——VQ 力历史 token + 直投当前力 + 形变特征拼接。不把触觉当图片。

4. 训练配方（三段，§4.3 + Table 4）¶

人类第一视角预训练：沿用卡片-EgoScale，在 22,889h 人类第一视角视频上预训练 latent+action 专家（学视觉语言表征 + retarget 人手臂动作，统一动作空间）。无触觉专家。
触觉接地 mid-training：用自采 100h 触觉同步双臂遥操作数据，把 action 专家适配到机器人多视观测/可执行动作，并训练 tactile 专家做高频去噪精修。
技能后训练：每任务约 100 演示微调，适配具体任务同时保留反应式行为。
配置：Qwen3VL-2B；AdamW，峰值 LR 1e-4，余弦到 0；H100 × 24；DeepSpeed Zero-1；per-device batch 16；bf16；梯度裁剪 1.0。

5. 数据集（App G）¶

规模：100h、200+ 日常物体、22 运动基元、7700+ 轨迹；遥操作员采集历时 10 周。按"动词-名词"组织，非按任务。
场景多样性：6 种桌面背景；干扰物池 >210 件、每场景 0–5 个；每 episode 随机初始位姿。
数据清洗：剔除触觉不稳/传感器损坏/遥操失败异常运动、极端关节速度等。
语言标注：商用 VLM 喂 4–6 帧头相机图 + 目标物名 + 基元名 → 生成一句祈使指令，再由人工核验去幻觉。
发布：计划 MIT 许可放出原始传感器流 + 触觉表征 + 语言标注 + 数据加载/预处理脚本。

6. 硬件与遥操作（App D，图7）¶

机器人：Dexmate Vega-1 双臂移动底座，每臂 7 关节；只驱动 14 个手臂关节（轮/躯干/头固定）。相对末端位姿命令经 Pink(Pinocchio) 差分 IK → 低通 → 厂商级联 PID，300Hz 低层控制线程与策略推理线程并发。
手：Sharpa Wave 22-DoF 灵巧手 ×2；每手 5 个指尖触觉传感器，各记形变深度 + 6 轴合力/力矩(net wrench)。
相机：头部 1× ZED X Mini（取左单目 RGB）+ 腕部 2× ZED X One S 广角；均 640×360。
遥操作：Manus 手套（指尖位置 → 经 Pinocchio+CasADi IK retarget 到 Sharpa 手）+ 2× VIVE tracker（SE(3) 腕位姿）；高层线程 30Hz、低层 300Hz。

7. 实验（全表）¶

主表 Table 1 — 12 任务成功率(%)，每任务 16 rollouts¶

方法	Flip Page	Transfer Egg	Wipe Plate	Apply Paste	Split Cup	Sort Mahjong	Open Lock	Refill Tablet	Acid-Base	Extract Card	Deal Poker	Screw Bulb	Avg
ViTacFormer	9	0	4	1	4	7	0	0	0	2	2	1	3
RDP	12	8	18	2	6	9	2	0	0	1	2	7	6
Tactile-VLA	38	14	24	0	21	27	8	0	9	4	11	18	15
EgoScale	68	44	34	38	33	36	19	12	43	41	28	18	35
π0.5	36	17	28	13	18	32	5	1	24	8	9	11	17
π0.5 + tactile	8	9	27	2	4	14	2	0	7	3	0	0	6
T-Rex(Ours)	96	75	69	66	78	65	47	41	76	70	57	35	65

两点观察：① 大规模预训练必不可少（从零的小模型 ViTacFormer/RDP 全线垫底；EgoScale 因人类第一视角+手姿监督最强基线）；② 触觉对接触密集操作关键（纯预训练的 EgoScale 仍在精细力控/力敏行为上失败）。
⚠️ 反直觉：π0.5+tactile(6) < π0.5(17)——粗暴把触觉当额外条件塞给预训练 VLA 反而掉分，坐实"融合方式比有无更重要"。

消融 Table 2 — 6 任务平均¶

配置	平均	Δ
Full Model	65	—
w/o Tactile	42	−23
MLP Force + Deform	58	−7
Deform only	54	−11
MLP Force + VQVAE Force	59	−6
w/o Async	60	−5

→ 去触觉是最大单因素落差；VQ-VAE 力编码 > 朴素 MLP；异步机制有实打实增益。

训练配方 Table 3 — 6 任务平均¶

人类预训练	触觉 mid-training	平均
✗	✗	18
✓	✗	34
✗	✓	45
✓	✓	65

→ 两段都不可省。

其它图¶

Fig4（τ_split）：非单调，中间值(≈0.4)最好——太小则 action 专家提供的视觉运动先验不足，太大则 tactile 专家精修容量不够。
Fig5（数据效率）：有 T-Rex mid-training 时，10–200 演示的低数据区成功率远高于无 mid-training。
Fig6（mid-training 数据集）：T-Rex 100h（按基元组织）vs 同预算 11 任务专用 100h——前者泛化/零样本更强；mid-training 后已具 pick/slide/press/wipe 的零样本接触能力。

8. 基线复现（App E，都在同一机器人/动作/评测协议下）¶

ViTacFormer：ACT 基座，chunk 100、隐 512、FFN 3200、KL 10；6D 每指力当触觉条件；21→22 DoF 适配（去掉关节 mask）。每任务 100 演示×100 epoch。
RDP：Asymmetric Tokenizer + Latent Diffusion Policy 两段；10 指 6D 力当高频条件。
Tactile-VLA：原用 GelSight 图，这里改成 10 指 6D 力 + Simple-MLP 编码器。
EgoScale：用 GR00T N1.7 复现、从 nvidia/GR00T-N1.7-3B 初始化；相对末端 + 22-DoF 手。
π0.5 / π0.5+tactile：OpenPI 代码库、π0.5 预训练权重；tactile 版把 10 指 6D 力单步拼进 state。

9. 失败模式（App H，图20，六类）¶

物体碰撞（拧灯泡）：抓起后没对准插座、撞底座 → 缺细粒度视觉对齐 + 动作过快。
滑脱（开锁）：滑入抓到钥匙但握持不稳掉落 → 小物精细 in-hand 灵巧不足（遥操数据分布所限）。
定位不准（转移鸡蛋）：靠力反馈护住鸡蛋但没放进托盘 → BC 固有分布偏移。
多指摩擦（打麻将）：拇指过低误触旁边牌、同时打开两盒 → 单指级协调不足、多指误触。
用力过度（挤牙膏）：抓管后挤太多 → 序列预测机制的过强控制在可变形物上暴露。
滑移错位（抽卡）：抽卡时用力不均 → 需在时间维建立更强触觉条件。

10. 局限（§7）¶

长程 + 高精度接触协调任务遥操作难采 → 建议未来接 RL / 在线交互精修。
硬件瓶颈：传感器畸变、跨设备标定漂移、缺手掌稠密触觉（无法整手操作）。
异构触觉传感器尚无统一表征，列为 future work。

11. 洞见 / 对我们¶

"贵模态放最省的阶段"：触觉能力不进最贵的预训练、改在 mid-training 注入——把稀缺模态从最贵阶段挪到便宜有效阶段，是可迁移的数据方法论（与卡片-EgoScale "人类视频扛规模、机器人数据只需少量对齐"同构）。
"融合方式 > 有无触觉"：π0.5+tactile 掉分是最有价值的负面证据，与卡片-Tactile-VLA（force 进动作空间）、卡片-TacVLA（接触门控）、卡片-TacForeSight 的共识一致——触觉不能当 image、也不能粗暴当额外 token 硬塞。
架构血统：慢-快双流承自卡片-ReactiveDiffusionPolicy（RDP，但只做并爪+任务级 IL），T-Rex 把它推广到灵巧手 + VLA 基础模型 + 预训练；预训练承自卡片-EgoScale。等于"RDP 的反应式 × EgoScale 的规模化 × 好触觉编码"。
可拆借的最小单元：时序触觉 VQ-VAE（幅值加权码本）、异步级联去噪 + 延迟增强、形变图冻结 SSL 编码器——这几块可单独迁到我们关注的视触觉策略上试。

12. 🧑‍⚖️ 审稿人视角（🤖 我的判断，可信度最低、需人复核）¶

强点：数据+架构+benchmark 三位一体、消融充分（去触觉/编码器/异步/配方/数据效率都做了）、有 limitations + 失败模式分析、代码+数据开源(MIT)、作者阵容顶配。证据档按本库标准 🔶（自采 benchmark、无第三方复现）。
可疑/待验证：① 12 任务、每任务仅 16 rollouts，样本量偏小，方差未报；② benchmark 全自采、baseline 全自复现（如 Tactile-VLA 从 GelSight 图改成 6D 力、可能未发挥其原设计），跨设定比较需谨慎——ViTacFormer 在此仅 3% 不代表其原论文表现；③ τ_split/K/码本大小在其硬件调优，换平台未必最优；④ 全链路复现门槛极高（Vega-1 + Sharpa 手 + 22,889h 预训练）。
一句话：目前触觉×VLA 数据/架构/benchmark 最完整的一篇，宜作主线锚点；但"65% vs 35%"是自家赛场自家规则，等独立复现再下"SOTA"定论。