跳转至

TLV:给触觉配"整句话"的语言,做触/语/视对齐

📅 2024-03 · 🏛 学界(项目 xiaoen0) · 🏷 触-语-视数据集·对齐 📌 一句话省流:以前给触觉配的语言只有"粗糙/光滑"这种词,太薄。TLV 用人工标框 + GPT-4V 自动写整句触感描述,造出首个句子级的"触-语-视"数据集;再用只调 ~1% 参数的轻量对齐(STLV-Align)把三者绑一起。 ≈ 打比方:给触觉数据从"贴标签"升级成"写说明文"。 🔬 详读:详读-TLV 🎬 项目:https://xiaoen0.github.io/touch.page/

🧰 对我们(可用性速判)

  • 对我们的用处:两点可直接借——①句子级描述比词级标签更适合接 LLM/VLA;②用 GPT-4V 自动生成触感描述的"省标注"配方(参见 概念-机器人数据与标注)。与 卡片-TVL卡片-AnyTouch卡片-UniTouch 同属触/语/视对齐族。
  • 真实性:✅ 全文精读;但作者自陈材料分类仍逊于 ViT-Lens-2。
  • 训练/微调资源:STLV-Align 仅 LoRA 调 ~1% 参数,采用成本低。
  • 能借多少(开源):数据集 + 方法(项目页);规模 ~2 万。
  • 可用性结论数据配方可借 / 句子级语义可用(非刷点 SOTA)。
  • 🔬 详读(全文):详读-TLV

亮点(全文精读后定位)

  • 首个句子级触-语-视数据集:19,834 条,源自 VisGel 1 万视频,GelSight + RGB。
  • 三段人机级联标注:帧差配对 → 人标 bbox/物名 → GPT-4V 生成触感描述(含材质/纹理/硬度)。
  • STLV-Align:ViT + OpenCLIP 文本,LoRA 仅 ~1% 参数,对称对比联合训 触-语/视-语/触-视。
  • 消融证实:触-视、视-语对齐都不能去;视觉作中介对齐很关键。

关键数字(每条带来源 [n])

  • [1] 数据集 19,834 条(9,834 有接触 + 10,000 无)。✅📄
  • [2] Touch-and-Go 零样本跨域:材料 26.0%(+8.3)、硬/软 65.1%(+32.9)、糙/滑 74.6%(+31.9,vs OpenCLIP)。✅📄
  • [3] 仅用 ~2 万数据 + 1% 参数(LoRA);消融去触-视对齐糙/滑掉到 52.7%。✅📄

🔎 证据与可信度(见 _卡片规范)

  • 论文arXiv 2403.09813(✅ 全文精读)。
  • 数据/代码:项目页 xiaoen0.github.io/touch.page。
  • 证据等级:A(全文)→ 权重:中(数据量小、非 SOTA)。

🧪 复现条件与成本(暂不亲做,只估)

  • 数据构建:复用 VisGel 视频 + GPT-4V 自动描述(省人工);
  • 训练:LoRA 1% 参数,轻。
  • 侧证判价值:句子级语义 ✅ / 省标注配方 ✅ / 但材料分类逊于 ViT-Lens-2 ⚠️。

💡 我的批注 / 判断(🤖,待人复核)

  • 最值得抄的是"GPT-4V 自动写触感描述"这条省标注流水线——做触觉×VLA 的语言监督时直接可用。
  • 但别把它当性能标杆:数据小、材料分类打不过 ViT-Lens-2。它的位置是"数据配方 + 句子级语义"。

来源编号

  • [1][2][3] arXiv 2403.09813 全文(✅,见 详读-TLV)。