跳转至

机器人知识库

详读 Octopi

type: 详读（中文全文摘要） domain: 感知·触觉表征对应卡片: 卡片-Octopi arxiv: "2405.02794" 来源: 全文精读(arXiv HTML 正文)，🤖Claude 摘译，关键数字📄来自正文 date: 2026-06-30

详读 · Octopi：让 LLM"摸一摸"就推理物体物理属性（NUS，CoRL 2024）¶

一、问题与核心主张¶

问题：大视觉语言模型(LVLM)擅视觉推理，但摸才知道的物理属性(硬度/粗糙/纹理)抓不住，尤其视觉模糊时。
主张：给 LVLM 接上触觉(GelSight)，把触感 + 语言常识结合，做物理理解与操作。

二、方法（三件套）¶

触觉编码器：微调的 CLIP ViT-L/14（视觉 prompt tuning + 多任务属性分类）。
投影模块：2 层线性 + GELU，把触觉嵌入映到 LLM 空间。
LLM：Vicuna 7b/13b（LLaMA）。
三段训练：①编码器属性分类微调(30 epoch) → ②冻结对齐(8k 样本) → ③端到端 LoRA(3k 样本)。
PhysiCLeAR 数据集：408 段触觉视频、74 个家居物体、3 属性(硬度/粗糙/凹凸)，标注一致性 ICC3k 0.894–0.979，按物体 60/7/7 划分。

三、任务与结果（Octopi-13b）¶

属性比较 PC 55.06%；最高级选择 PSS 84.00%；属性-物体匹配 POM 60.43%；场景推理 PSR 67.39%。
属性预测(测试集)合计 55.26%（硬度 73.68 / 粗糙 78.95 / 凹凸 78.95）。
机器人牛油果熟度：63%(100 次两两比较)；仅靠属性预测对未见牛油果合计 35.5%。

四、消融¶

编码器微调：13b +5.26%、7b +7.9%(PC 任务 7b +17.72%)。
端到端 LoRA：13b 31.58%→55.26%(大涨)、7b 39.47%→47.37%。
中间属性预测(OPD)关键：不训 OPD 描述，理解/推理任务掉 20–40%。← 思维链式中间量很重要。

五、局限（作者自陈）¶

GelSight 与自然图像有域差；只选了3 个属性(为配合传感器)；只用2 种探索动作(按压/旋转)。

六、开源 / 出处¶

CoRL 2024；代码 + PhysiCLeAR 数据集 github.com/clear-nus/octopi（NUS + UW）。

七、对我们（精读后判断，🤖）¶

这是"触觉 → 语言推理"那条腿的范例，和卡片-Tactile-VLA 的"触觉 grounding + 常识"呼应；要让 VLA/LLM 理解触觉属性，其 encoder→projection→LLM 三件套可直接抄。
最有迁移价值的发现："先让模型显式预测中间物理属性(OPD)，再推理"能涨 20–40%——这就是触觉版的 chain-of-thought，和卡片-ECoT 的"先推理再动作"同源，值得在我们触觉×VLA 里复用。
PhysiCLeAR 是现成的"触觉视频+属性标注"数据集，可直接拿来做触觉-语言任务。