跳转至

机器人知识库

详读 TLV

type: 详读（中文全文摘要） domain: 感知·触觉表征对应卡片: 卡片-TLV arxiv: "2403.09813" 来源: 全文精读(arXiv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · TLV：给触觉配"整句话"的语言（触-语-视数据集 + STLV-Align）¶

一、问题与核心主张¶

问题：触觉-语言研究薄弱，已有工作多是"词级标签"(如"粗糙")，缺句子级语义描述。
主张：构建首个句子级描述的触-语-视数据集 TLV，做更丰富的多模态对齐。

二、数据集与方法¶

TLV 数据集：19,834 条标注(9,834 有接触物 + 10,000 无)，源自 VisGel 的 1 万段同步视频；GelSight 触觉 + 同步 RGB。
三段人机级联标注：①帧差提取"接触/视觉"配对帧 → ②人工标 bbox + 物体名 → ③GPT-4V 生成详细触觉描述(含物名/接触位置/材质/纹理/硬度)。
STLV-Align 架构：ViT(触/视) + OpenCLIP 文本编码器；LoRA 仅调 ~1% 参数；对称对比损失联合训练触-语(T,L)/视-语(V,L)/触-视(T,V)，权重 α=β=0.1。

三、结果（Touch-and-Go 上零样本跨域）¶

材料 26.0%(+8.3% vs OpenCLIP)；硬/软 65.1%(+32.9%)；糙/滑 74.6%(+31.9%)。
对比 ViT-Lens-2(I+T) 材料 65.8% 更高、但糙/滑 63.8% 更低；STLV-Align 用更小数据(19,843 vs 91,982)、仅 1% 参数、跨域评测。

四、消融¶

去掉触-视对齐：硬/软掉到 52.8%、糙/滑 52.7%(大降)。
去掉视-语对齐：硬/软 55.3%、糙/滑 49.1%(同样有害)。
全去视觉：材料反而略高(32.5%)但整体更差 → 视觉作中介的对齐很关键。

五、局限（作者自陈）¶

材料分类上仍逊于 ViT-Lens-2；跨域泛化有差距；性能仍有提升空间。

六、开源 / 出处¶

arXiv 2403.09813(2024-03)；项目页 xiaoen0.github.io/touch.page。

七、对我们（精读后判断，🤖）¶

与卡片-TVL、卡片-AnyTouch、卡片-UniTouch 同属"触/语/视对齐"族，TLV 的差异化是"句子级描述"(比词级标签更适合接 LLM/VLA)，且用 GPT-4V 自动生成描述的配方可直接借——这正是"省标注"做触觉-语言数据的实用招(参见概念-机器人数据与标注)。
但要清醒：数据量小(~2 万)、材料分类还打不过 ViT-Lens-2——它的价值在数据构建配方 + 句子级语义，不在刷点。