跳转至

机器人知识库

TLV（Touch-Language-Vision）：首个句子级描述的触觉-语言-视觉数据集 + 轻量对齐

TLV：给触觉配"整句话"的语言，做触/语/视对齐¶

📌 一句话省流：现有触觉-语言数据多是词级标签，语义太薄。TLV 通过人机级联协作构建首个句子级描述的触觉-语言-视觉数据集（触/语/视两两对应），语义更完整；并提出轻量对齐框架 TLV-Link，仅调约 1% 参数即达成有效语义对齐。

🧰 对我们（速判）¶

能不能借：要"触觉接语言"且要更丰富语义监督时的数据来源——句子级描述比词级标签更适合接 LLM/VLA。与卡片-TVL、卡片-AnyTouch 同属触/语/视对齐家族，可对照（数据规模、描述粒度不同）。参见概念-机器人数据与标注。
资源：核心交付是数据集；TLV-Link 强调极少参数（~1%）微调即对齐，采用成本低。
开源：数据/代码开放范围待核。
证据：B（摘要级已核出处；venue/规模/开源待核，未精读）。

关键（摘要级）¶

📄 首个句子级描述的 Touch-Language-Vision 数据集，人机级联协作构建，触/语/视两两对应。[1]
📄 TLV-Link 轻量对齐框架：约 1% 参数调整即达成有效语义对齐。[1]
⚠️ 数据集规模、传感器类型、定量指标待核全文。

来源¶

[1] arXiv 2403.09813（摘要级核实 2026-06-29，未精读）