跳转至

type: 详读(中文全文摘要) domain: 感知·触觉 对应卡片: 卡片-NeuralFeels arxiv: "2312.13469" 来源: 全文精读(arXiv txt 正文 v1),🤖Claude 摘译,关键数字📄来自正文 date: 2026-07-04


详读 · NeuralFeels:视触觉神经场做在手位姿+形状估计(CMU+Meta FAIR+Berkeley,Science Robotics 2024)

一、问题与核心主张

  • 问题:灵巧在手操作要知道物体位姿与几何,但现状主要靠视觉、且只能追已知物体;在手操作时视觉自遮挡不可避免,视觉还怕光照/透明/镜面。
  • 主张:把视觉+触觉+本体融进一个在线神经场,对先验未知物体做 SLAM(定位+重建)、对已知物体做鲁棒追踪——触觉"至少精化、至多消歧"视觉估计。

二、方法

  • 在线神经 SDF + 位姿图:前端用预训练模型从视觉与触觉抽"视触觉深度";后端据深度采样训练神经符号距离场(SDF) 表几何,同时位姿图优化追踪被摆放的神经场。
  • 硬件:多指灵巧手 + 商用视觉式触觉传感器(DIGIT 类,凝胶接触内相机成像→当"就地稠密接触"处理) + 固定 RGB-D 相机;本体驱动策略做在手旋转探索物体外形。
  • 统一"视觉/触觉/本体"到神经表示:连续、比点云/网格保真,轻量 SDF 使在线感知可行。

三、关键结果(📄)

  • 新物体:重建 F-score 81%、平均位姿漂移 4.7mm有 CAD 模型时降到 2.3mm
  • 重遮挡下:位姿追踪比纯视觉方法改进最多 94% → 证触觉在遮挡时价值最大。
  • 发布 FeelSight 数据集(70 组真实+仿真在手旋转实验,含真值网格与追踪)。

四、局限(🤖 读后判断)

  • 感知(位姿/形状)而非策略——输出给下游灵巧策略用,本身不产生动作。
  • 依赖 DIGIT 类视觉触觉 + 本体驱动旋转策略;对极小/极软/极滑物体的 SDF 质量待验。

五、开源 / 出处

  • arXiv 2312.13469(Science Robotics 2024);CMU + Meta FAIR + UC Berkeley(Malik) + TU Dresden。代码 facebookresearch/neuralfeels、项目页 suddhu.github.io/neural-feels。

六、对我们(精读后判断,🤖)