跳转至

TA-VLA:不加触觉传感器,只用"关节力矩"喂 VLA——但要喂对地方、对方式

📅 2025-09(CoRL 2025) · 🏛 BAAI + 清华 AIR(Hao Zhao) + NTU · 🏷 力矩感知 VLA 📌 一句话省流:接触密集任务(插插头/插孔)光看 RGB 分不清"没插进/插失败/插成功",但关节力矩曲线能清楚区分。TA-VLA 不做架构创新,而是系统地把"力矩怎么接进 VLA"的设计空间摸了一遍(何时:当前/历史/预测 × 何处:编码器/解码器 × 如何:单/多 token),给出三条可迁移结论:①力矩接解码器优于编码器;②把整段力矩历史压成一个 token最好;③把"预测未来力矩"当辅助任务(统一 action-torque 扩散)进一步涨点。 ≈ 打比方:给 VLA 装"关节的肌肉记忆"——不用外接触觉皮肤,只读电机力矩就知道"顶到了没、插进去没",关键是接线接对位置。 🎬 演示/资源:项目页

🧰 对我们(可用性速判)

  • 对我们的用处触觉×VLA 纵线的"力"分支的方法论指南。它回答的是我们迟早要面对的工程问题——"力/力矩信号到底接 VLA 的哪一层、怎么编码"。三条结论可直接指导我们做融合架构(接 卡片-FTP-1 的独立触觉专家、卡片-Tactile-VLA 把力写进动作空间、卡片-FD-VLA 力蒸馏)。
  • 真实性(前期):高。CoRL 2025 + 10 真机任务(5 接触密集)+ 跨架构/跨本体验证 → 证据 A;代码开放程度以项目页为准。
  • 训练/微调资源:在 π0 上加 torque adapter,属微调级;无需外部力/触觉传感器(用关节力矩,7-DoF 臂)。
  • 能借多少(开源):结论/设计原则完全可借;代码见项目页(CoRL)。
  • 可用性结论思路/结论直接可借——做力感知 VLA 前先按它的三条结论选型,省大量试错。
  • 📖 详读(按需):暂未做(本卡覆盖全文要点)。

亮点到底在哪(读全文后定位)

  • 亮点=把"力矩接 VLA"的设计空间系统化 + 三条经验律(不是新架构,是"选型指南"):
  • 何处:解码器 > 编码器(HSIC 分析+消融证)。力矩与解码器输入的本体感觉(关节角)对齐,且解码器对细粒度变化更敏感——接触密集场景(区分插成功/失败)关键。[1]
  • 如何:历史 > 单帧,但多 token 会扰乱解码器。最优=把整段力矩历史压成单个 token 进解码器,兼顾信息量与架构稳定。[1]
  • 何时:预测未来力矩当辅助输出(借鉴自动驾驶联合预测-规划)。提出统一 action-torque 扩散模型,让策略不仅"动"还"预判物理后果"→ 逼模型内化接触动力学。[1]
  • 动机可视化:7-DoF 臂充电器插入,力矩曲线明确区分"未接触(平)/接触未插入(小波动)/成功插入(大尖峰)"——RGB 看不出来的物理上下文。

🧬 与其他工作的关系

  • 建立在 π0 上(最终模型 π0+obs+obj)。是"用本体力矩替代外部力/触觉传感器"这条路(接 卡片-FD-VLA 力蒸馏、卡片-Tactile-VLA 力入动作空间);区别是它做系统性设计空间研究而非单点方法。
  • 卡片-FTP-1 对照:FTP-1 处理外部触觉传感器(图像/阵列/状态三模态)、独立触觉专家;TA-VLA 处理关节力矩(无需外部传感器)、单 token 进解码器。两者都在回答"力/触觉信号如何进 VLA",结论互补。
  • 非 NVIDIA:BAAI + 清华 AIR(Hao Zhao)+ NTU(Ziwei Wang)——补进 实验室与团队名录 的国内力/触觉 VLA 线。

关键数字(全文核实)

  • 10 个真机任务(含 5 个接触密集,力矩关键);最终模型 π0+obs+obj 持续超过强 VLA 基线(Table 5),跨模型架构与机器人本体泛化。[1]
  • 三条设计结论均有消融支撑:解码器>编码器、历史单token>多token/编码器侧、加力矩预测辅助任务进一步涨。[1]
  • (论文以设计空间对比为主,单点绝对成功率数字见原文 Table 5。)

🔎 证据与可信度

  • 论文arXiv 2509.07962(BAAI/清华 AIR/NTU,CoRL 2025)✅ 全文已读。
  • 代码:项目页(CoRL 2025)。
  • 证据等级:A(论文+顶会+真机+系统消融)→ 权重:中(偏上)(代码开放度以项目页为准,故不给满)。

🧱 局限

  • 关节力矩(粗粒度、7-DoF 臂),非指尖触觉——精细接触/滑移仍需真触觉(接 卡片-FTP-1)。
  • 结论基于 π0 系架构;换根本不同的 VLA 架构其"解码器 vs 编码器"结论需再验。
  • 以真机任务成功率为主,基准/口径见原文;非大规模跨任务基准。

💡 我的批注 / 判断

  • 最有用的是那三条"选型经验律":以后我们把任何力/触觉信号接 VLA,可先照它——接解码器、历史压单 token、加预测辅助任务——省去自己扫设计空间。这是一篇"方法论/工程指南"型论文,价值在可迁移的结论而非单一 SOTA。
  • 与我们纵线的位置:补上了"力矩(本体力)如何进 VLA"这块,和 FTP-1(外部触觉)、Tactile-VLA(力入动作)、FD-VLA(力蒸馏免传感器)一起,把"力/触觉×VLA"的接法谱系补更全。
  • ⚠️ "预测力矩当辅助任务"这一招和触觉世界模型(卡片-TacForeSight 用力预判触觉)思路相通——都在"让模型预判物理后果"。

来源编号

  • [1] arXiv 2509.07962 · 项目页 zzongzheng0918.github.io/Torque-Aware-VLA · 本地 papers/TA-VLA-TorqueAware-2509.07962.pdf(全文精读 2026-07-01)