type: 详读(中文全文摘要) domain: 感知·触觉表征 对应卡片: 卡片-Octopi arxiv: "2405.02794" 来源: 全文精读(arXiv HTML 正文),🤖Claude 摘译,关键数字📄来自正文 date: 2026-06-30
详读 · Octopi:让 LLM"摸一摸"就推理物体物理属性(NUS,CoRL 2024)¶
一、问题与核心主张¶
- 问题:大视觉语言模型(LVLM)擅视觉推理,但摸才知道的物理属性(硬度/粗糙/纹理)抓不住,尤其视觉模糊时。
- 主张:给 LVLM 接上触觉(GelSight),把触感 + 语言常识结合,做物理理解与操作。
二、方法(三件套)¶
- 触觉编码器:微调的 CLIP ViT-L/14(视觉 prompt tuning + 多任务属性分类)。
- 投影模块:2 层线性 + GELU,把触觉嵌入映到 LLM 空间。
- LLM:Vicuna 7b/13b(LLaMA)。
- 三段训练:①编码器属性分类微调(30 epoch) → ②冻结对齐(8k 样本) → ③端到端 LoRA(3k 样本)。
- PhysiCLeAR 数据集:408 段触觉视频、74 个家居物体、3 属性(硬度/粗糙/凹凸),标注一致性 ICC3k 0.894–0.979,按物体 60/7/7 划分。
三、任务与结果(Octopi-13b)¶
- 属性比较 PC 55.06%;最高级选择 PSS 84.00%;属性-物体匹配 POM 60.43%;场景推理 PSR 67.39%。
- 属性预测(测试集)合计 55.26%(硬度 73.68 / 粗糙 78.95 / 凹凸 78.95)。
- 机器人牛油果熟度:63%(100 次两两比较);仅靠属性预测对未见牛油果合计 35.5%。
四、消融¶
- 编码器微调:13b +5.26%、7b +7.9%(PC 任务 7b +17.72%)。
- 端到端 LoRA:13b 31.58%→55.26%(大涨)、7b 39.47%→47.37%。
- 中间属性预测(OPD)关键:不训 OPD 描述,理解/推理任务掉 20–40%。← 思维链式中间量很重要。
五、局限(作者自陈)¶
- GelSight 与自然图像有域差;只选了3 个属性(为配合传感器);只用2 种探索动作(按压/旋转)。
六、开源 / 出处¶
- CoRL 2024;代码 + PhysiCLeAR 数据集 github.com/clear-nus/octopi(NUS + UW)。
七、对我们(精读后判断,🤖)¶
- 这是"触觉 → 语言推理"那条腿的范例,和 卡片-Tactile-VLA 的"触觉 grounding + 常识"呼应;要让 VLA/LLM 理解触觉属性,其 encoder→projection→LLM 三件套可直接抄。
- 最有迁移价值的发现:"先让模型显式预测中间物理属性(OPD),再推理"能涨 20–40%——这就是触觉版的 chain-of-thought,和 卡片-ECoT 的"先推理再动作"同源,值得在我们触觉×VLA 里复用。
- PhysiCLeAR 是现成的"触觉视频+属性标注"数据集,可直接拿来做触觉-语言任务。