TLV:给触觉配"整句话"的语言,做触/语/视对齐¶
📌 一句话省流:现有触觉-语言数据多是词级标签,语义太薄。TLV 通过人机级联协作构建首个句子级描述的触觉-语言-视觉数据集(触/语/视两两对应),语义更完整;并提出轻量对齐框架 TLV-Link,仅调约 1% 参数即达成有效语义对齐。
🧰 对我们(速判)¶
- 能不能借:要"触觉接语言"且要更丰富语义监督时的数据来源——句子级描述比词级标签更适合接 LLM/VLA。与 卡片-TVL、卡片-AnyTouch 同属触/语/视对齐家族,可对照(数据规模、描述粒度不同)。参见 概念-机器人数据与标注。
- 资源:核心交付是数据集;TLV-Link 强调极少参数(~1%)微调即对齐,采用成本低。
- 开源:数据/代码开放范围待核。
- 证据:B(摘要级已核出处;venue/规模/开源待核,未精读)。
关键(摘要级)¶
- 📄 首个句子级描述的 Touch-Language-Vision 数据集,人机级联协作构建,触/语/视两两对应。[1]
- 📄 TLV-Link 轻量对齐框架:约 1% 参数调整即达成有效语义对齐。[1]
- ⚠️ 数据集规模、传感器类型、定量指标待核全文。
来源¶
- [1] arXiv 2403.09813(摘要级核实 2026-06-29,未精读)