T-Rex:让机器人像人一样"边摸边即时反应"¶
📌 一句话省流:主张——敏捷灵巧靠的是对触觉的即时闭环反应,而现有 VLA 要么忽略触觉、要么只用静态触觉编码。做法:①一个 100h 触觉同步双臂数据集(按"动词-名词"基元组织,非按任务);②一个 变速率 Mixture-of-Transformer-Experts(MoT),把控制拆成低频动作专家 + 高频触觉专家,两者在同一条流匹配轨迹的不相交去噪区间上分工(异步级联流匹配);③时序触觉 VQ-VAE 压缩高频力信号。三段训练(人类第一视角预训练→触觉 mid-training→任务 post-training),12 个接触密集任务平均 65%,比最强基线 EgoScale(35%) 高 +30pt。
🎬 演示 / 项目页:tactile-rex.github.io · 代码+数据 github.com/ZhuoyangLiu2005/T-Rex 🔬 全文精读(逐模块方法 + 全量数字 + 附录实现 + 审稿视角):详读-T-Rex ⚠️ 注意:
tactile-rec是常见笔误,正确域名是tactile-rex(T-Rex = Tactile-Reactive dexterous)。
🧰 对我们(可用性速判)¶
- 对我们的用处:高。这是目前触觉×VLA里"数据+架构+benchmark"最完整、且开源代码与数据集的一篇;灵巧手力控/反应式控制、慢-快双专家、触觉编码器都可直接借鉴。它把本库已有几张卡(Tactile-VLA/RDP/π0)都变成了它的 baseline。
- 真实性:论文级证据充分(12任务真机×16 trials、完整消融、有 limitations 节、开源);但均为自采 benchmark、暂无第三方复现 → 事实档 🔶(合理可信,待独立复现)。
- 训练/微调资源:很重。整流程需 Dexmate Vega-1 双臂 + 2×Sharpa Wave 22-DoF 灵巧手(每指带力+形变触觉)+ 22,889h 人类第一视角预训练(沿用 EgoScale)。多数团队无法复现全链路;但触觉编码器、异步级联去噪、mid-training 数据配方可单独借。
- 能借多少(开源):代码+数据集均已放出(相较 Tactile-VLA 的 Coming Soon 是实质进步)。
- 可用性结论:强烈建议作为触觉×VLA 主线新锚点。思路(force-in-action 之上再加"高频触觉专家做残差精修")可借;全链路复现门槛高,但模块可拆借。
亮点到底在哪(读全文后定位)¶
- 亮点在"架构机制",证据在"消融+data-efficiency":
- 异步级联流匹配(核心机制):把一条 flow-matching 轨迹在 τ_split=0.4 处切开——动作专家去噪 τ∈[0.4,1](~5Hz,每个 action chunk 跑一次,缓存视觉-语言 KV),触觉专家接手 τ∈[0,0.4](~20Hz,在 16 步 chunk 内的偏移 {0,4,8,12} 触发,绕过重型视觉网络,只吃实时触觉 token + 缓存 KV)。两专家回归同一速度目标 v*=ε−A_demo,但在不相交 τ 区间上 → 高频触觉响应不必重算视觉特征。[1]
- 时序触觉 VQ-VAE(核心编码):对每根手指的力历史 f_{t−15:t} 做 VQ-VAE(16 帧窗、码本 K=64、EMA 防塌缩、幅值加权 MSE让重接触帧权重更高)压成时序 token;并列直接投影当前力 f_t + 卷积编码形变图 d_t,拼成触觉 token(式2)。不把触觉当图片。[1]
- 训练配方(核心洞见):触觉能力不必在预训练阶段获得,可在专门的 mid-training 阶段高效注入 → 绕开"预训练要海量视触觉同步数据"的死结。
- 最硬证据:见下"关键数字"的 Table 1/2/3 与 data-efficiency。
关键数字(全文核实,[1])¶
- 主表 Table 1(12任务×16 trials 平均成功率%):T-Rex 65 ≫ EgoScale 35 > π0.5 17 > Tactile-VLA 15 > RDP 6 = π0.5+tactile 6 > ViTacFormer 3。分任务高光:FlipPage 96 / SplitCup 78 / AcidBase 76 / TransferEgg 75 / ExtractCard 70 / WipePlate 69 / ApplyPaste 66 / SortMahjong 65 / DealPoker 57 / OpenLock 47 / RefillTablet 41 / ScrewBulb 35。[1]
- ⚠️ 反直觉点:π0.5+tactile(6) 反而低于 π0.5(17) —— 粗暴地把触觉当额外条件塞给预训练VLA会掉分,坐实"怎么融合触觉"比"要不要触觉"更关键。[1]
- 触觉消融 Table 2(6任务平均):Full 65 → w/o Tactile 42(−23) 最大单因素落差;Deform only 54(−11);MLP力+形变 58(−7);MLP力+VQVAE力 59(−6);w/o Async 60(−5)。→ VQ-VAE 力编码 > 朴素MLP;异步机制有实打实增益。[1]
- 训练配方 Table 3(6任务平均):从零 18 → +人类预训练 34 → +触觉mid-training 45 → 全三段 65。两段都不可省。[1]
- 数据效率 Fig 5/6:有 T-Rex mid-training 时低数据区(10–200演示)成功率大幅高于无 mid-training;mid-training 后已有零样本接触密集能力(pick/slide/press/wipe 基元)。[1]
- 数据集规模:100h、200+ 日常物体、22 个运动基元、7700+ 轨迹、双臂、RGB+触觉+state+action+语言全同步。[1]
🔎 证据与可信度¶
- 论文:arXiv 2606.17055 v2(2026-06-18)。作者阵容极强:UC Berkeley + NVIDIA + Stanford + Panasonic + La Sapienza + ItalAI;含 Fei-Fei Li、Pieter Abbeel、Ken Goldberg、Jitendra Malik、Trevor Darrell、Yuke Zhu、Danfei Xu、Jim(Linxi) Fan。✅ 全文已读。
- 代码/数据:均已开源(GitHub + 数据集)。
- 第三方复现:暂无 → 结论保持 🔶。
- 证据等级:A(全文 + 强结果 + 完整消融 + limitations 节 + 开源)→ 权重:高。
🧪 复现条件与成本(暂不亲做,只估)¶
- 硬件:Dexmate Vega-1 固定底座双臂 + 2×Sharpa Wave 22-DoF 灵巧手(致谢中感谢 Sharpa 提供设备维护);每指力向量 + 形变图触觉;ZED 头部相机 + 2 个腕部单目相机。动作空间=双臂相对末端 delta + 手指绝对关节控制。触觉传感器为 Sharpa 手内置,未给独立商用型号。
- 骨干:沿用 卡片-EgoScale 的 VLA(latent+action 专家在 22,889h 人类第一视角视频上预训练;据项目页附录骨干为 Qwen3VL-2B — 🟡此条据附录、未在正文核到,待验证)。
- 数据:mid-training 用自采 100h;每个下游任务 post-training 约 100 演示。
- 算力:flow-matching + MoT 多专家,需多卡;预训练阶段成本高(复用 EgoScale 权重可省)。
- 时间估计:拿到硬件 + 复用开源权重/数据 → 单任务复现约数周;从零跑预训练不现实。
- 侧证判价值:① 代码+数据开源(强) ② 硬件门槛高、可得性差(弱) ③ 分任务/消融数字详实、有 limitations(强) ④ 无第三方复现(待补) ⑤ 顶级机构背书(强信号)。
🧱 局限(✅ 正文 §7 有 Limitations 节)¶
- 长程 + 高精度接触协调任务:遥操作采数困难,作者建议未来接 RL / 在线交互精修。[1]
- 硬件瓶颈:传感器畸变、跨设备标定漂移、缺手掌稠密触觉(无法整手操作)。[1]
- 异构触觉传感器:尚无跨传感器统一表征,作者列为 future work。[1]
- (我的补充推断,🟡待验证)自采 benchmark、无独立复现;τ_split、码本大小等超参在其硬件上调优,换平台未必最优。
💡 我的批注 / 判断¶
- "π0.5+tactile 反而掉分"是本篇最有价值的负面证据:与 卡片-Tactile-VLA(force 进 action space)、卡片-TacVLA、卡片-TacForeSight 的共识一致——触觉不能当 image、也不能粗暴当额外 token 硬塞,必须设计与之匹配的融合/控制结构。我 06-23 的"触觉当特殊图片"表示再被否一次。
- 架构血统清晰:慢-快双流思想承自 卡片-ReactiveDiffusionPolicy(RDP,但只做并爪+任务级模仿学习),T-Rex 把它推广到灵巧手 + VLA 基础模型 + 预训练;预训练承自 卡片-EgoScale。等于"RDP 的反应式 × EgoScale 的规模化"。
- 方法论收获:"触觉能力放 mid-training 注入、不进预训练"这个拆法很聪明——把稀缺模态从最贵的阶段挪到最便宜有效的阶段。值得作为一条可迁移经验记住。
来源编号¶
- [1] arXiv 2606.17055 v2(2026-06-18)· 项目页 tactile-rex.github.io · 代码 github.com/ZhuoyangLiu2005/T-Rex · 本地
papers/T-Rex-TactileReactiveDexterousManipulation-2606.17055.pdf(全文精读 2026-07-02)