T-Rex：让机器人像人一样"边摸边即时反应"¶

📌 一句话省流：主张——敏捷灵巧靠的是对触觉的即时闭环反应，而现有 VLA 要么忽略触觉、要么只用静态触觉编码。做法：①一个 100h 触觉同步双臂数据集（按"动词-名词"基元组织，非按任务）；②一个 变速率 Mixture-of-Transformer-Experts（MoT），把控制拆成低频动作专家 + 高频触觉专家，两者在同一条流匹配轨迹的不相交去噪区间上分工（异步级联流匹配）；③时序触觉 VQ-VAE 压缩高频力信号。三段训练（人类第一视角预训练→触觉 mid-training→任务 post-training），12 个接触密集任务平均 65%，比最强基线 EgoScale(35%) 高 +30pt。

🎬 演示 / 项目页：tactile-rex.github.io · 代码+数据 github.com/ZhuoyangLiu2005/T-Rex 🔬 全文精读（逐模块方法 + 全量数字 + 附录实现 + 审稿视角）：详读-T-Rex ⚠️ 注意：tactile-rec 是常见笔误，正确域名是 tactile-rex（T-Rex = Tactile-Reactive dexterous）。

🧰 对我们（可用性速判）¶

对我们的用处：高。这是目前触觉×VLA里"数据+架构+benchmark"最完整、且开源代码与数据集的一篇；灵巧手力控/反应式控制、慢-快双专家、触觉编码器都可直接借鉴。它把本库已有几张卡（Tactile-VLA/RDP/π0）都变成了它的 baseline。
真实性：论文级证据充分（12任务真机×16 trials、完整消融、有 limitations 节、开源）；但均为自采 benchmark、暂无第三方复现 → 事实档 🔶（合理可信，待独立复现）。
训练/微调资源：很重。整流程需 Dexmate Vega-1 双臂 + 2×Sharpa Wave 22-DoF 灵巧手（每指带力+形变触觉）+ 22,889h 人类第一视角预训练（沿用 EgoScale）。多数团队无法复现全链路；但触觉编码器、异步级联去噪、mid-training 数据配方可单独借。
能借多少（开源）：代码+数据集均已放出（相较 Tactile-VLA 的 Coming Soon 是实质进步）。
可用性结论：强烈建议作为触觉×VLA 主线新锚点。思路（force-in-action 之上再加"高频触觉专家做残差精修"）可借；全链路复现门槛高，但模块可拆借。

亮点到底在哪（读全文后定位）¶

亮点在"架构机制"，证据在"消融+data-efficiency"：
异步级联流匹配（核心机制）：把一条 flow-matching 轨迹在 τ_split=0.4 处切开——动作专家去噪 τ∈[0.4,1]（~5Hz，每个 action chunk 跑一次，缓存视觉-语言 KV），触觉专家接手 τ∈[0,0.4]（~20Hz，在 16 步 chunk 内的偏移 {0,4,8,12} 触发，绕过重型视觉网络，只吃实时触觉 token + 缓存 KV）。两专家回归同一速度目标 v*=ε−A_demo，但在不相交 τ 区间上 → 高频触觉响应不必重算视觉特征。[1]
时序触觉 VQ-VAE（核心编码）：对每根手指的力历史 f_{t−15:t} 做 VQ-VAE（16 帧窗、码本 K=64、EMA 防塌缩、幅值加权 MSE让重接触帧权重更高）压成时序 token；并列直接投影当前力 f_t + 卷积编码形变图 d_t，拼成触觉 token（式2）。不把触觉当图片。[1]
训练配方（核心洞见）：触觉能力不必在预训练阶段获得，可在专门的 mid-training 阶段高效注入 → 绕开"预训练要海量视触觉同步数据"的死结。
最硬证据：见下"关键数字"的 Table 1/2/3 与 data-efficiency。

关键数字（全文核实，[1]）¶

主表 Table 1（12任务×16 trials 平均成功率%）：T-Rex 65 ≫ EgoScale 35 > π0.5 17 > Tactile-VLA 15 > RDP 6 = π0.5+tactile 6 > ViTacFormer 3。分任务高光：FlipPage 96 / SplitCup 78 / AcidBase 76 / TransferEgg 75 / ExtractCard 70 / WipePlate 69 / ApplyPaste 66 / SortMahjong 65 / DealPoker 57 / OpenLock 47 / RefillTablet 41 / ScrewBulb 35。[1]
⚠️ 反直觉点：π0.5+tactile(6) 反而低于 π0.5(17) —— 粗暴地把触觉当额外条件塞给预训练VLA会掉分，坐实"怎么融合触觉"比"要不要触觉"更关键。[1]
触觉消融 Table 2（6任务平均）：Full 65 → w/o Tactile 42（−23） 最大单因素落差；Deform only 54(−11)；MLP力+形变 58(−7)；MLP力+VQVAE力 59(−6)；w/o Async 60(−5)。→ VQ-VAE 力编码 > 朴素MLP；异步机制有实打实增益。[1]
训练配方 Table 3（6任务平均）：从零 18 → +人类预训练 34 → +触觉mid-training 45 → 全三段 65。两段都不可省。[1]
数据效率 Fig 5/6：有 T-Rex mid-training 时低数据区(10–200演示)成功率大幅高于无 mid-training；mid-training 后已有零样本接触密集能力（pick/slide/press/wipe 基元）。[1]
数据集规模：100h、200+ 日常物体、22 个运动基元、7700+ 轨迹、双臂、RGB+触觉+state+action+语言全同步。[1]

🔎 证据与可信度¶

论文：arXiv 2606.17055 v2（2026-06-18）。作者阵容极强：UC Berkeley + NVIDIA + Stanford + Panasonic + La Sapienza + ItalAI；含 Fei-Fei Li、Pieter Abbeel、Ken Goldberg、Jitendra Malik、Trevor Darrell、Yuke Zhu、Danfei Xu、Jim(Linxi) Fan。✅ 全文已读。
代码/数据：均已开源（GitHub + 数据集）。
第三方复现：暂无 → 结论保持 🔶。
证据等级：A（全文 + 强结果 + 完整消融 + limitations 节 + 开源）→ 权重：高。

🧪 复现条件与成本（暂不亲做，只估）¶

硬件：Dexmate Vega-1 固定底座双臂 + 2×Sharpa Wave 22-DoF 灵巧手（致谢中感谢 Sharpa 提供设备维护）；每指力向量 + 形变图触觉；ZED 头部相机 + 2 个腕部单目相机。动作空间=双臂相对末端 delta + 手指绝对关节控制。触觉传感器为 Sharpa 手内置，未给独立商用型号。
骨干：沿用卡片-EgoScale 的 VLA（latent+action 专家在 22,889h 人类第一视角视频上预训练；据项目页附录骨干为 Qwen3VL-2B — 🟡此条据附录、未在正文核到，待验证）。
数据：mid-training 用自采 100h；每个下游任务 post-training 约 100 演示。
算力：flow-matching + MoT 多专家，需多卡；预训练阶段成本高（复用 EgoScale 权重可省）。
时间估计：拿到硬件 + 复用开源权重/数据 → 单任务复现约数周；从零跑预训练不现实。
侧证判价值：① 代码+数据开源(强) ② 硬件门槛高、可得性差(弱) ③ 分任务/消融数字详实、有 limitations(强) ④ 无第三方复现(待补) ⑤ 顶级机构背书(强信号)。

🧱 局限（✅ 正文 §7 有 Limitations 节）¶

长程 + 高精度接触协调任务：遥操作采数困难，作者建议未来接 RL / 在线交互精修。[1]
硬件瓶颈：传感器畸变、跨设备标定漂移、缺手掌稠密触觉（无法整手操作）。[1]
异构触觉传感器：尚无跨传感器统一表征，作者列为 future work。[1]
（我的补充推断，🟡待验证）自采 benchmark、无独立复现；τ_split、码本大小等超参在其硬件上调优，换平台未必最优。

💡 我的批注 / 判断¶

"π0.5+tactile 反而掉分"是本篇最有价值的负面证据：与卡片-Tactile-VLA（force 进 action space）、卡片-TacVLA、卡片-TacForeSight 的共识一致——触觉不能当 image、也不能粗暴当额外 token 硬塞，必须设计与之匹配的融合/控制结构。我 06-23 的"触觉当特殊图片"表示再被否一次。
架构血统清晰：慢-快双流思想承自卡片-ReactiveDiffusionPolicy（RDP，但只做并爪+任务级模仿学习），T-Rex 把它推广到灵巧手 + VLA 基础模型 + 预训练；预训练承自卡片-EgoScale。等于"RDP 的反应式 × EgoScale 的规模化"。
方法论收获："触觉能力放 mid-training 注入、不进预训练"这个拆法很聪明——把稀缺模态从最贵的阶段挪到最便宜有效的阶段。值得作为一条可迁移经验记住。

来源编号¶

[1] arXiv 2606.17055 v2（2026-06-18）· 项目页 tactile-rex.github.io · 代码 github.com/ZhuoyangLiu2005/T-Rex · 本地 papers/T-Rex-TactileReactiveDexterousManipulation-2606.17055.pdf（全文精读 2026-07-02）