跳转至

机器人知识库

read TA VLA

type: 详读（中文全文摘要） domain: 大脑·学习方法 / 触觉·力对应卡片: 卡片-TA-VLA arxiv: "2509.07962" 来源: 全文精读(arXiv txt 正文 v1)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-07-04

详读 · TA-VLA：力矩感知 VLA 的设计空间厘清（BAAI+清华AIR+NTU，CoRL 2025）¶

一、问题与核心主张¶

问题：很多操作要靠力/力矩判断是否完成、做闭环，但现有 VLA 无法整合这种细微物理反馈。
主张：不发明新模块，而是系统厘清"把关节力矩塞进 VLA"的设计空间——三根轴：何时(当前/历史/预测)、何处(编码器/解码器)、如何(单 token/多 token)——给出可迁移的整合原则。用关节力矩(无需外置力传感器)。

二、三个核心发现（本文精华）¶

力矩加进解码器 > 编码器：力矩是本体信号、与解码器的本体输入(关节角)对齐，且解码器对细微变化更敏感(HSIC 分析+消融支撑)——接触密集下(区分插入失败 vs 成功)尤关键。
力矩"历史"比单帧更有信息，但要压成"单 token"：把整段力矩历史汇总成一个 token注入解码器，既保信息量又不破坏解码器已学的输入模式(优于逐帧、优于编码器侧历史)。
预测未来力矩当辅助输出：借鉴自动驾驶的"联合预测+规划"，提出统一 action–torque 扩散模型，让策略不仅行动、还预判物理后果 → 逼模型内化接触动力学、建物理接地的隐空间。

三、方法/实验¶

基座 π0；充电器插入的关节力矩曲线能清晰区分"无接触/插入失败/插入成功"(Fig.1)。
真机 10 个任务(含 5 个接触密集)；最终模型(π0+obs+obj 力矩预测)一致超强 VLA 基线，且跨模型架构与跨本体都泛化。

四、局限（🤖）¶

只用关节力矩(非指尖触觉)——是"力感知"而非"高分辨触觉"，对纹理/材质类无能为力。
设计空间结论基于其特定任务集，跨更大任务分布的稳健性待验。

五、开源 / 出处¶

arXiv 2509.07962(CoRL 2025)；BAAI + 清华 AIR + 南洋理工。项目页 zzongzheng0918.github.io。

六、对我们（精读后判断，🤖）¶

"预测未来力矩当辅助任务"与本库"预测未来触觉"一脉（卡片-ViTacFormer 预测触觉、卡片-TacForeSight 力预判、概念-隐空间与潜动作学习）：都在力/触侧做"前瞻"来建物理接地隐空间——TA-VLA 是关节力矩版。
方法论价值高：它不是又一个融合模型，而是厘清"物理模态怎么接进 VLA"的设计空间(何时/何处/如何)——"解码器侧+历史压单 token+预测辅助"这三条原则可直接指导我们接触觉/力进 VLA。
与卡片-FD-VLA/卡片-HapticVLA(蒸馏免传感器)、卡片-Tactile-VLA(力写进动作空间)互补：TA-VLA 用真实关节力矩、聚焦"放哪层/怎么编码"。