TLV:给触觉配"整句话"的语言,做触/语/视对齐¶
📅 2024-03 · 🏛 学界(项目 xiaoen0) · 🏷 触-语-视数据集·对齐 📌 一句话省流:以前给触觉配的语言只有"粗糙/光滑"这种词,太薄。TLV 用人工标框 + GPT-4V 自动写整句触感描述,造出首个句子级的"触-语-视"数据集;再用只调 ~1% 参数的轻量对齐(STLV-Align)把三者绑一起。 ≈ 打比方:给触觉数据从"贴标签"升级成"写说明文"。 🔬 详读:详读-TLV 🎬 项目:https://xiaoen0.github.io/touch.page/
🧰 对我们(可用性速判)¶
- 对我们的用处:两点可直接借——①句子级描述比词级标签更适合接 LLM/VLA;②用 GPT-4V 自动生成触感描述的"省标注"配方(参见 概念-机器人数据与标注)。与 卡片-TVL、卡片-AnyTouch、卡片-UniTouch 同属触/语/视对齐族。
- 真实性:✅ 全文精读;但作者自陈材料分类仍逊于 ViT-Lens-2。
- 训练/微调资源:STLV-Align 仅 LoRA 调 ~1% 参数,采用成本低。
- 能借多少(开源):数据集 + 方法(项目页);规模 ~2 万。
- 可用性结论:数据配方可借 / 句子级语义可用(非刷点 SOTA)。
- 🔬 详读(全文):详读-TLV
亮点(全文精读后定位)¶
- 首个句子级触-语-视数据集:19,834 条,源自 VisGel 1 万视频,GelSight + RGB。
- 三段人机级联标注:帧差配对 → 人标 bbox/物名 → GPT-4V 生成触感描述(含材质/纹理/硬度)。
- STLV-Align:ViT + OpenCLIP 文本,LoRA 仅 ~1% 参数,对称对比联合训 触-语/视-语/触-视。
- 消融证实:触-视、视-语对齐都不能去;视觉作中介对齐很关键。
关键数字(每条带来源 [n])¶
- [1] 数据集 19,834 条(9,834 有接触 + 10,000 无)。✅📄
- [2] Touch-and-Go 零样本跨域:材料 26.0%(+8.3)、硬/软 65.1%(+32.9)、糙/滑 74.6%(+31.9,vs OpenCLIP)。✅📄
- [3] 仅用 ~2 万数据 + 1% 参数(LoRA);消融去触-视对齐糙/滑掉到 52.7%。✅📄
🔎 证据与可信度(见 _卡片规范)¶
- 论文:arXiv 2403.09813(✅ 全文精读)。
- 数据/代码:项目页 xiaoen0.github.io/touch.page。
- 证据等级:A(全文)→ 权重:中(数据量小、非 SOTA)。
🧪 复现条件与成本(暂不亲做,只估)¶
- 数据构建:复用 VisGel 视频 + GPT-4V 自动描述(省人工);
- 训练:LoRA 1% 参数,轻。
- 侧证判价值:句子级语义 ✅ / 省标注配方 ✅ / 但材料分类逊于 ViT-Lens-2 ⚠️。
💡 我的批注 / 判断(🤖,待人复核)¶
- 最值得抄的是"GPT-4V 自动写触感描述"这条省标注流水线——做触觉×VLA 的语言监督时直接可用。
- 但别把它当性能标杆:数据小、材料分类打不过 ViT-Lens-2。它的位置是"数据配方 + 句子级语义"。
来源编号¶
- [1][2][3] arXiv 2403.09813 全文(✅,见 详读-TLV)。