跳转至

type: 详读(中文全文摘要) domain: 大脑·学习方法 / 触觉·力 对应卡片: 卡片-TA-VLA arxiv: "2509.07962" 来源: 全文精读(arXiv txt 正文 v1),🤖Claude 摘译,关键数字📄来自正文 date: 2026-07-04


详读 · TA-VLA:力矩感知 VLA 的设计空间厘清(BAAI+清华AIR+NTU,CoRL 2025)

一、问题与核心主张

  • 问题:很多操作要靠力/力矩判断是否完成、做闭环,但现有 VLA 无法整合这种细微物理反馈。
  • 主张:不发明新模块,而是系统厘清"把关节力矩塞进 VLA"的设计空间——三根轴:何时(当前/历史/预测)、何处(编码器/解码器)、如何(单 token/多 token)——给出可迁移的整合原则。用关节力矩(无需外置力传感器)。

二、三个核心发现(本文精华)

  1. 力矩加进解码器 > 编码器:力矩是本体信号、与解码器的本体输入(关节角)对齐,且解码器对细微变化更敏感(HSIC 分析+消融支撑)——接触密集下(区分插入失败 vs 成功)尤关键。
  2. 力矩"历史"比单帧更有信息,但要压成"单 token":把整段力矩历史汇总成一个 token注入解码器,既保信息量又不破坏解码器已学的输入模式(优于逐帧、优于编码器侧历史)。
  3. 预测未来力矩当辅助输出:借鉴自动驾驶的"联合预测+规划",提出统一 action–torque 扩散模型,让策略不仅行动、还预判物理后果 → 逼模型内化接触动力学、建物理接地的隐空间。

三、方法/实验

  • 基座 π0;充电器插入的关节力矩曲线能清晰区分"无接触/插入失败/插入成功"(Fig.1)。
  • 真机 10 个任务(含 5 个接触密集);最终模型(π0+obs+obj 力矩预测)一致超强 VLA 基线,且跨模型架构与跨本体都泛化

四、局限(🤖)

  • 只用关节力矩(非指尖触觉)——是"力感知"而非"高分辨触觉",对纹理/材质类无能为力。
  • 设计空间结论基于其特定任务集,跨更大任务分布的稳健性待验。

五、开源 / 出处

  • arXiv 2509.07962(CoRL 2025);BAAI + 清华 AIR + 南洋理工。项目页 zzongzheng0918.github.io。

六、对我们(精读后判断,🤖)

  • "预测未来力矩当辅助任务"与本库"预测未来触觉"一脉卡片-ViTacFormer 预测触觉、卡片-TacForeSight 力预判、概念-隐空间与潜动作学习):都在力/触侧做"前瞻"来建物理接地隐空间——TA-VLA 是关节力矩版
  • 方法论价值高:它不是又一个融合模型,而是厘清"物理模态怎么接进 VLA"的设计空间(何时/何处/如何)——"解码器侧+历史压单 token+预测辅助"这三条原则可直接指导我们接触觉/力进 VLA。
  • 卡片-FD-VLA/卡片-HapticVLA(蒸馏免传感器)、卡片-Tactile-VLA(力写进动作空间)互补:TA-VLA 用真实关节力矩、聚焦"放哪层/怎么编码"。