跳转至

机器人知识库

TLV（Touch-Language-Vision）：首个句子级描述的触觉-语言-视觉数据集 + 轻量对齐

TLV：给触觉配"整句话"的语言，做触/语/视对齐¶

📅 2024-03 · 🏛 学界(项目 xiaoen0) · 🏷 触-语-视数据集·对齐 📌 一句话省流：以前给触觉配的语言只有"粗糙/光滑"这种词，太薄。TLV 用人工标框 + GPT-4V 自动写整句触感描述，造出首个句子级的"触-语-视"数据集；再用只调 ~1% 参数的轻量对齐(STLV-Align)把三者绑一起。 ≈ 打比方：给触觉数据从"贴标签"升级成"写说明文"。 🔬 详读：详读-TLV 🎬 项目：https://xiaoen0.github.io/touch.page/

🧰 对我们（可用性速判）¶

对我们的用处：两点可直接借——①句子级描述比词级标签更适合接 LLM/VLA；②用 GPT-4V 自动生成触感描述的"省标注"配方(参见概念-机器人数据与标注)。与卡片-TVL、卡片-AnyTouch、卡片-UniTouch 同属触/语/视对齐族。
真实性：✅ 全文精读；但作者自陈材料分类仍逊于 ViT-Lens-2。
训练/微调资源：STLV-Align 仅 LoRA 调 ~1% 参数，采用成本低。
能借多少(开源)：数据集 + 方法(项目页)；规模 ~2 万。
可用性结论：数据配方可借 / 句子级语义可用（非刷点 SOTA）。
🔬 详读（全文）：详读-TLV

亮点（全文精读后定位）¶

首个句子级触-语-视数据集：19,834 条，源自 VisGel 1 万视频，GelSight + RGB。
三段人机级联标注：帧差配对 → 人标 bbox/物名 → GPT-4V 生成触感描述(含材质/纹理/硬度)。
STLV-Align：ViT + OpenCLIP 文本，LoRA 仅 ~1% 参数，对称对比联合训触-语/视-语/触-视。
消融证实：触-视、视-语对齐都不能去；视觉作中介对齐很关键。

关键数字（每条带来源 [n]）¶

[1] 数据集 19,834 条(9,834 有接触 + 10,000 无)。✅📄
[2] Touch-and-Go 零样本跨域：材料 26.0%(+8.3)、硬/软 65.1%(+32.9)、糙/滑 74.6%(+31.9，vs OpenCLIP)。✅📄
[3] 仅用 ~2 万数据 + 1% 参数(LoRA)；消融去触-视对齐糙/滑掉到 52.7%。✅📄

🔎 证据与可信度（见 _卡片规范）¶

论文：arXiv 2403.09813（✅ 全文精读）。
数据/代码：项目页 xiaoen0.github.io/touch.page。
证据等级：A（全文）→ 权重：中（数据量小、非 SOTA）。

🧪 复现条件与成本（暂不亲做，只估）¶

数据构建：复用 VisGel 视频 + GPT-4V 自动描述(省人工)；
训练：LoRA 1% 参数，轻。
侧证判价值：句子级语义 ✅ / 省标注配方 ✅ / 但材料分类逊于 ViT-Lens-2 ⚠️。

💡 我的批注 / 判断（🤖，待人复核）¶

最值得抄的是"GPT-4V 自动写触感描述"这条省标注流水线——做触觉×VLA 的语言监督时直接可用。
但别把它当性能标杆：数据小、材料分类打不过 ViT-Lens-2。它的位置是"数据配方 + 句子级语义"。

来源编号¶

[1][2][3] arXiv 2403.09813 全文（✅，见详读-TLV）。