详读 · TVL（触觉-视觉-语言多模态对齐数据集 + 语言对齐触觉编码器）¶

卡片版见卡片-TVL。本页是全文精读：动机 → 数据集(采集/清洗/标注) → 方法(逐模块) → 实验(全表) → 消融 → 洞见/局限 → 对我们。来源：arXiv 2402.13232（2024-02-20，ICML 2024）· 项目页 · 代码 Max-Fu/tvl 作者：Letian Fu、Gaurav Datta、Huang Huang、William Chung-Ho Panitch、Jaimyn Drake（UC Berkeley）+ Joseph Ortiz、Mustafa Mukadam、Mike Lambeta（Meta AI）+ Roberto Calandra（TU Dresden）+ Ken Goldberg（Berkeley）

0. 一句话定位¶

触觉至今没被接进多模态生成式语言模型。难点有二：① 触觉数据很难拿到自然语言标注；② 把触觉同时对齐到视觉 + 语言很复杂。TVL 的解法是：自制手持设备同步采 44K「视觉-触觉」对，只人工标 10%（SSVTP 子集）、其余 90% 用 GPT-4V 伪标注（HCT 子集）；据此用三模态两两对比学习训一个语言对齐的触觉编码器（开放词表分类），再微调 LLaMA2-7B 得 TVL 模型，能从触觉+视觉生成自然语言触感描述。

1. 问题与动机（图1）¶

图1 能否让具身智能体把"触觉"接进视觉与语言？本文给出首个开放词表的触觉-视觉-语言数据集，并训了 1) 语言对齐的触觉编码器 2) 可描述触感的 TVL 模型

几乎所有生物感知都天生多模态；多模态表征学习已链起视觉、语言、音频、温度、机器人动作（CLIP / ImageBind / RT-2 等），唯独触觉仍欠开发。
触觉能让人区分表面纹理、材质、尺寸、接触力，在接触密集型操作里尤其有用。
前人多做"触-视关联"或在闭集词表上分类材质/纹理/布料（GelSight、Yang 2022 等）——但人类触觉的语义远不止"触-视配对"，它与语言深度耦合。据作者所知，此前没有任何带开放词表语言标注的触觉数据集。
两大障碍：① 数据稀缺（要"野外"采集，不在受控实验室）；② 人工标注贵、且触感描述主观、因人而异。→ 解法：借鉴 LLM/VLM 用"自己或现成大模型合成的数据"训练的思路，用现成 GPT-4V 当 captioner，把视觉观测翻译成触感描述，缓解触觉-语言标注稀缺。

2. TVL 数据集（图2、图3）¶

2.1 硬件与采集（图2）¶

图2 自制 3D 打印数据采集设备：DIGIT 触觉传感器 + 网络摄像头，手持在物体表面"按压+滑动"，野外同步采视觉与触觉

视觉：Logitech BRIO 网络摄像头；触觉：DIGIT（低成本、紧凑、开源的视觉式触觉传感器，输出内部可形变面的 RGB 触觉图）。
原始数据由两个子集拼成：
SSVTP（沿用 Kerr 2023）：4,587 对图-触；由 UR5 机器人采——先俯拍工作面上预排的物体，再把 DIGIT 压到对应位置。两个缺陷：① 实验室环境物体多样性受限；② 触觉与视觉异步采集易错位（机器人可能碰动物体）。
HCT（Human Collected Tactile，本文新采）：5 名采集者、共 20 小时、用图2 的手持 3D 打印设备采。设备以 30 Hz 同步记录视觉+触觉。数据按"触摸轨迹"组织（接近→接触→滑动→离开），按是否接触分 in-/out-of-contact。视觉以斜角拍，使传感器与接触点始终在视野内以保同步性。鼓励采集者找有趣纹理/边缘。HCT 留 1% 做手标测试集，其余 GPT-4V 伪标。

2.2 清洗：判断"是否接触"¶

用 SSVTP 预训练触觉编码器区分 in-/out-of-contact：假设每条轨迹首尾帧为非接触，取其均值作背景参考帧并编码；对每帧算其触觉隐向量与背景的余弦相似度，< 0.6 即判为接触。
清洗后得 43,741 对接触帧 + 169,292 对非接触帧。

2.3 语言标注（图3）¶

图3 数据集示例：SSVTP（第1行，人工标）+ HCT（2-4行，GPT-4V 标）。第4行是 GPT-4V 失败案例——接触面被传感器遮挡/信息不足时给不出正确触感标签

人工标注（SSVTP）：因 SSVTP 触-视对齐强，用它当"触-语"对齐基础；给标注者一份 400 词的触觉词表，每条选至多 5 个最贴切的形容词描述材质/触感。
GPT-4V 伪标注（HCT 接触部分）：经验发现同时给全图 + 接触点局部裁剪图，能让 GPT-4V 产出更贴近人工的标签（全图杂物多易跑偏）。
失败兜底：GPT-4V 对运动模糊/弱光图会失败或拒答 → 先尝试同轨迹其它帧；仍缺则从同轨迹其它接触帧的词集里随机采样补；若整条轨迹都标不出，则整条剔除训练集。处理后剩 39,154 张伪标图。

2.4 数据集统计（全量数字）¶

SSVTP：4,587 独立图-触对（每点一条独立触摸轨迹）。
HCT：39,154 接触图-触对 + 169,292 非接触对；非接触为 1,486 条连续轨迹（每条含一或多次接触事件）。
人工+GPT-4V 合计用了 254 个不同触觉形容词。
99%-1% 训练-测试划分（两子集都切），测试集 402 对图-触全部人工标注。
平均用词：GPT-4V 在 HCT 上 4.25 个形容词/条；人工 2.70 个/条。

3. 方法（图4）¶

图4 方法。左：与 ImageBind 不同——ImageBind 只算"视觉↔其它模态"的损失；TVL 算"每一对模态"的损失，含触觉↔语言这一对。右：沿用 ImageBind-LLM，把触觉与视觉隐向量取平均后微调语言模型

3.1 预备：ImageBind / ImageBind-LLM¶

ImageBind：跨 6 模态（图像、文本、音频、深度、热成像、IMU）学联合嵌入；只用"视觉+某模态"的成对数据，把所有模态都绑到视觉。视觉/语言编码器取自 OpenCLIP 且冻结，其它模态编码器随机初始化，各接一个可训练 adapter 投到同维隐空间，用 InfoNCE 对比训练。
ImageBind-LLM / LLaMA-Adapter：高效指令微调——(1) 把多模态观测平均成单个 token；(2) 用零初始化门控自适应融合多模态 token 与语言模型；先预训门控+投影器，再用 LoRA 微调语言模型。

3.2 触觉编码器（核心改动）¶

关键差异：不像 ImageBind 把所有模态都绑到视觉，TVL 对每一对模态都算对比损失——视觉-语言、触觉-语言、触觉-视觉，给触觉模态更强监督（尤其补上"触觉↔语言"这条直连）。
触觉编码器是随机初始化的 ViT，测三种尺寸：ViT-Tiny 5.7M / ViT-Small 22M / ViT-Base 86M 参数。
抗过拟合（44K 接触数据偏小，直接套 ImageBind 配方会过拟合）：发现引入非接触（背景）数据能借提升视觉多样性缓解过拟合 → 让训练数据里 γ=10% 为非接触样本、标签设为 "background"。
去掉视觉/语言编码器的投影器，让触觉编码器直接投到原始 CLIP 的公共隐空间。
再对每张图的触觉描述词随机打乱并取子集，增加语言标签多样性。

3.3 与语言模型对齐（TVL-LLaMA）¶

沿用 ImageBind-LLM 的两阶段训练，把 ImageBind 编码器换成 TVL 编码器。
预训练：LLaVA Visual Instruct CC3M 595K 子集 + TVL 数据集（对 CC3M，触觉模态喂空白触觉图）。
微调：TVL + Alpaca + LLaVA Visual Instruct 150K 混合。
注意：经验上只用 TVL 自己的数据不足以越过 LLaMA2 的安全微调——模型会拒答触感问题，故须混入通用指令数据。

4. 实验¶

4.1 评测设置与指标¶

开放词表触觉分类：把 402 条人工标测试集当 402 类分类问题，量触觉编码器的 top-1/top-5（触-视、触-语）。
同义词处理：因触感可有多种近义表达、且 CLIP 语言嵌入非排列不变（"soft, smooth" 与 "smooth, soft" 嵌入不同），作者让 GPT-4 为人工词表每词生 5 个同义词，得 799 个不同形容词；取原词与其同义词余弦相似度的最小值为阈值 φ=0.636，凡测试集中与某图原标签相似度 > φ 的标签都算"正确标签"，据此算 top-1/top-5。
TVL Benchmark（触觉语义描述）：给模型全图 + 接触点裁剪图 + 触觉图，要求用≤5 个形容词描述触感；再用纯文本 GPT-4 按与人工真值的契合度打 1-10 分并解释。基线含多个开源 VLM 与 GPT-4V，外加 SSVTP-LLaMA（用 SSVTP 触-视编码器微调的语言模型）。

4.2 跨模态分类结果（表1，ViT-Tiny）¶

图5 左：在 402 条三元组测试集上量触觉↔语言余弦相似度；右：GPT-4V 与 TVL-LLaMA 生成对比（GPT-4V 易被非接触物体带偏，加触觉也没用因属分布外；TVL-LLaMA 学自 GPT-4V 伪标故有同样失效）

模型	触-语 Top-1	触-语 Top-5	触-视 Top-1	触-视 Top-5	视-文 Top-1	视-文 Top-5
CLIP (OpenCLIP)	-	-	-	-	28.4%	64.9%
SSVTP	-	-	0.2%	0.3%	-	-
TVL	36.7%	70.3%	79.5%	95.7%	28.4%	64.9%

关键读数：① TVL 触觉编码器触-语 top-1（36.7%）甚至高于 OpenCLIP 的视-文 top-1（28.4%），说明原始 CLIP 抓不好触觉语义；② SSVTP 因只在实验室小数据上训，在"野外"全集上触-视仅 0.2%，几乎不泛化 → 印证扩大触-视数据集的必要；③ TVL 的视-文分数与 OpenCLIP 相同（因直接复用其冻结编码器）。

4.3 触觉语义生成结果（表2，TVL Benchmark，GPT-4 打分 1-10）¶

模型	预训练模态(V/T/L)	SSVTP	HCT	TVL	p 值(vs GPT-4V, d.f.=401)
LLaVA-1.5 7B	V·L	3.64	3.55	3.56	1.21×10⁻⁹
LLaVA-1.5 13B	V·L	3.55	3.63	3.62	1.49×10⁻⁹
ViP-LLaVA 7B	V·L	2.72	3.44	3.36	8.77×10⁻¹⁶
ViP-LLaVA 13B	V·L	4.10	3.76	3.80	1.72×10⁻⁶
LLaMA-Adapter	V·L	2.56	3.08	3.02	2.68×10⁻¹⁷
BLIP-2 Opt-6.7b	V·L	2.02	2.72	2.64	1.92×10⁻³¹
InstructBLIP 7B	V·L	1.40	1.30	1.31	1.07×10⁻⁸⁴
InstructBLIP 13B	V·L	1.44	1.21	1.24	4.64×10⁻⁸⁸
GPT-4V	V·L	5.02	4.42	4.49	-（基准）
SSVTP-LLaMA	V·T	2.58	3.67	3.54	1.79×10⁻⁹
TVL-LLaMA (ViT-Tiny)	V·T·L	6.09	4.79	4.94	4.24×10⁻⁵
TVL-LLaMA (ViT-Small)	V·T·L	5.81	4.77	4.89	6.02×10⁻⁴
TVL-LLaMA (ViT-Base)	V·T·L	6.16	4.89	5.03	3.46×10⁻⁶

关键读数：① 所有 TVL-LLaMA 版本都超过它的标签生成者 GPT-4V（TVL 列 5.03 vs 4.49，约 +12%），说明模型能泛化出超越那 10% 人工标的能力；② 开源 VLM 普遍弱于 GPT-4V（差距来源是它们的视觉训练数据缺人类触感聚焦）；③ SSVTP-LLaMA（缺触-语对齐）分数明显更低（3.54），印证触-语对齐的必要；④ 所有对比在 α=0.05 下统计显著。

论文摘要里的三个"招牌数字"：触觉编码器对齐 +29%（相对仅用两模态训的编码器/通用 OpenCLIP 的分类）；TVL-LLaMA 比 GPT-4V +12%、比开源 VLM 至少 +32%。

4.4 消融与敏感性（表3，均用 ViT-Small；baseline=默认设置）¶

维度	设置	触-语 %	触-视 %
(a) 模型尺寸	ViT-Tiny	36.7	79.5
	ViT-Small	36.3	78.0
	ViT-Base	30.7	81.7
(b) 触-语损失	Enabled	36.3	78.0
	Disabled(≈ImageBind式)	20.3	81.6
(c) 模态	All	36.3	78.0
	−Vision	29.9	1.0
	−Text	21.5	85.8
(d) 接触数据混比	仅接触	36.2	80.1
	+10% 非接触	36.3	78.0
(e) prompt	Baseline	36.3	78.0
	+Prompt	37.7	78.7
(f) 训练数据	仅 SSVTP	19.2	8.0
	仅 HCT	38.4	74.4
	TVL(全)	36.3	78.0

消融要点：① (b) 关掉触-语损失（退化成 ImageBind 式只绑视觉），触-语骤降 36.3→20.3——直接证明"用语言监督触觉"是关键贡献；② (c) 去掉视觉模态触-视塌到 1.0%，三模态全用才整体最好；③ (d) 加 10% 非接触数据对测试集触-视反略降（80.1→78.0），但作者称它防过拟合（附录），故仍保留；④ (f) 仅 HCT（纯伪标）就能逼近/超过全集（触-语 38.4 vs 36.3），说明伪标自监督能大幅降低对全量人工标注的依赖——这是"90% 伪标"配方的核心证据；⑤ (a) ViT-Base 验证集最高但测试集触-语反降（30.7），作者归因于分布漂移：GPT-4V 训练标签不如人工测试标签细致准确，大模型反而过拟合到伪标分布。

5. 诚实读数 / 局限（作者自陈 + 观察）¶

触觉标签源于视觉，天花板有限：触觉与视觉本质不同，仅凭视觉派生的触感标签准确度有上限。
采集硬件视角遮挡：相机未必能无遮挡看到传感器接触的面/物 → 加大触-视对齐难度、降低伪标质量（图3 第4行就是失败案例）。
伪标失效会被继承：TVL-LLaMA 学自 GPT-4V 伪标，会继承 GPT-4V 的同样失效模式（被非接触杂物带偏；对 GPT-4V 加触觉输入无改善，因属分布外）。
大模型在小伪标数据上反吃亏：ViT-Base 测试集触-语反降（见消融 a）。
单传感器 DIGIT：全数据基于 DIGIT，跨传感器泛化未覆盖（弱于卡片-T3/卡片-AnyTouch）。
偏感知/描述，非操作策略：产出是"触觉编码器 + 触感描述模型"，未直接做操作策略。
并发工作对照：Yang 2024 同期把触觉绑到视觉做开放词表分类、且无需微调 ImageBind-LLM 即对齐语言——与本文路线相近但取舍不同。

6. 核心洞见¶

把"触觉↔语言"直连进对比学习（而非像 ImageBind 全绑视觉），是把触觉接进语言模型最干净的一步；消融 (b) 用 16 个点的硬数字证明了它。
"少量人工 + 大量 VLM 伪标"是可行降本配方：10% 人工 + 90% GPT-4V，且消融 (f) 显示纯伪标 HCT 单独就够强 → 把昂贵的触觉-语言标注成本压到极低。
CLIP 不自带触觉语义：原始 OpenCLIP 视-文对齐反而打不过 TVL 的触-语对齐，说明触觉需要专门的对齐监督。

7. 对我们（深一层）¶

接语言的桥：TVL 是"把触觉接进 VLA 的语言侧"最干净的范本，与卡片-Tactile-VLA（"VLM 已有物理常识"）同一条线——TVL 给的就是"触觉↔语言"对齐编码器。三张表征卡选型口径：跨传感器→卡片-T3/卡片-AnyTouch；接语言→TVL；有对齐多传感器数据→卡片-AnyTouch。
伪标注配方可直接抄：我们以后采机器人触觉/操作数据时，"10% 人工 + 90% VLM 伪标"能大幅降本，正呼应雷达"批注=数据标注"的思路（见概念-机器人数据与标注）。其失败兜底（同轨迹补标、整条剔除）也是可复用的工程细节。
互为对照的成本结构：TVL 用现成 GPT-4V 当 captioner、把标注成本搬到"推理"侧；DexTeleop-0 那条线是把成本搬到"采集硬件（指尖力）"侧——采数降本两条不同路线（见详读-DexTeleop-0）。
可直接用的资产：代码 + 44K 数据 + 编码器/模型全开源（github Max-Fu/tvl），接语言侧可直接拿来当"触觉→语义"模块；唯一硬约束是只支持 DIGIT 单传感器。