TA-VLA：不加触觉传感器，只用"关节力矩"喂 VLA——但要喂对地方、对方式¶

📅 2025-09(CoRL 2025) · 🏛 BAAI + 清华 AIR(Hao Zhao) + NTU · 🏷 力矩感知 VLA 📌 一句话省流：接触密集任务(插插头/插孔)光看 RGB 分不清"没插进/插失败/插成功"，但关节力矩曲线能清楚区分。TA-VLA 不做架构创新，而是系统地把"力矩怎么接进 VLA"的设计空间摸了一遍(何时:当前/历史/预测 × 何处:编码器/解码器 × 如何:单/多 token)，给出三条可迁移结论:①力矩接解码器优于编码器;②把整段力矩历史压成一个 token最好;③把"预测未来力矩"当辅助任务(统一 action-torque 扩散)进一步涨点。 ≈ 打比方：给 VLA 装"关节的肌肉记忆"——不用外接触觉皮肤，只读电机力矩就知道"顶到了没、插进去没"，关键是接线接对位置。 🎬 演示/资源：项目页

🧰 对我们（可用性速判）¶

对我们的用处：触觉×VLA 纵线的"力"分支的方法论指南。它回答的是我们迟早要面对的工程问题——"力/力矩信号到底接 VLA 的哪一层、怎么编码"。三条结论可直接指导我们做融合架构(接卡片-FTP-1 的独立触觉专家、卡片-Tactile-VLA 把力写进动作空间、卡片-FD-VLA 力蒸馏)。
真实性(前期)：高。CoRL 2025 + 10 真机任务(5 接触密集)+ 跨架构/跨本体验证 → 证据 A;代码开放程度以项目页为准。
训练/微调资源：在 π0 上加 torque adapter,属微调级;无需外部力/触觉传感器(用关节力矩,7-DoF 臂)。
能借多少(开源)：结论/设计原则完全可借;代码见项目页(CoRL)。
可用性结论：思路/结论直接可借——做力感知 VLA 前先按它的三条结论选型,省大量试错。
📖 详读（按需）：暂未做（本卡覆盖全文要点）。

亮点到底在哪（读全文后定位）¶

亮点=把"力矩接 VLA"的设计空间系统化 + 三条经验律(不是新架构，是"选型指南")：
何处：解码器 > 编码器(HSIC 分析+消融证)。力矩与解码器输入的本体感觉(关节角)对齐,且解码器对细粒度变化更敏感——接触密集场景(区分插成功/失败)关键。[1]
如何：历史 > 单帧,但多 token 会扰乱解码器。最优=把整段力矩历史压成单个 token 进解码器,兼顾信息量与架构稳定。[1]
何时：预测未来力矩当辅助输出(借鉴自动驾驶联合预测-规划)。提出统一 action-torque 扩散模型,让策略不仅"动"还"预判物理后果"→ 逼模型内化接触动力学。[1]
动机可视化：7-DoF 臂充电器插入,力矩曲线明确区分"未接触(平)/接触未插入(小波动)/成功插入(大尖峰)"——RGB 看不出来的物理上下文。

🧬 与其他工作的关系¶

建立在 π0 上(最终模型 π0+obs+obj)。是"用本体力矩替代外部力/触觉传感器"这条路(接卡片-FD-VLA 力蒸馏、卡片-Tactile-VLA 力入动作空间);区别是它做系统性设计空间研究而非单点方法。
与卡片-FTP-1 对照：FTP-1 处理外部触觉传感器(图像/阵列/状态三模态)、独立触觉专家;TA-VLA 处理关节力矩(无需外部传感器)、单 token 进解码器。两者都在回答"力/触觉信号如何进 VLA",结论互补。
非 NVIDIA：BAAI + 清华 AIR(Hao Zhao)+ NTU(Ziwei Wang)——补进实验室与团队名录的国内力/触觉 VLA 线。

关键数字（全文核实）¶

10 个真机任务(含 5 个接触密集,力矩关键);最终模型 π0+obs+obj 持续超过强 VLA 基线(Table 5),跨模型架构与机器人本体泛化。[1]
三条设计结论均有消融支撑:解码器>编码器、历史单token>多token/编码器侧、加力矩预测辅助任务进一步涨。[1]
(论文以设计空间对比为主,单点绝对成功率数字见原文 Table 5。)

🔎 证据与可信度¶

论文：arXiv 2509.07962（BAAI/清华 AIR/NTU，CoRL 2025）✅ 全文已读。
代码：项目页(CoRL 2025)。
证据等级：A（论文+顶会+真机+系统消融）→ 权重：中(偏上)（代码开放度以项目页为准，故不给满）。

🧱 局限¶

用关节力矩(粗粒度、7-DoF 臂),非指尖触觉——精细接触/滑移仍需真触觉(接卡片-FTP-1)。
结论基于 π0 系架构;换根本不同的 VLA 架构其"解码器 vs 编码器"结论需再验。
以真机任务成功率为主,基准/口径见原文;非大规模跨任务基准。

💡 我的批注 / 判断¶

最有用的是那三条"选型经验律"：以后我们把任何力/触觉信号接 VLA,可先照它——接解码器、历史压单 token、加预测辅助任务——省去自己扫设计空间。这是一篇"方法论/工程指南"型论文,价值在可迁移的结论而非单一 SOTA。
与我们纵线的位置：补上了"力矩(本体力)如何进 VLA"这块,和 FTP-1(外部触觉)、Tactile-VLA(力入动作)、FD-VLA(力蒸馏免传感器)一起,把"力/触觉×VLA"的接法谱系补更全。
⚠️ "预测力矩当辅助任务"这一招和触觉世界模型(卡片-TacForeSight 用力预判触觉)思路相通——都在"让模型预判物理后果"。

来源编号¶

[1] arXiv 2509.07962 · 项目页 zzongzheng0918.github.io/Torque-Aware-VLA · 本地 papers/TA-VLA-TorqueAware-2509.07962.pdf（全文精读 2026-07-01）