跳转至

综述 · 第一人称人类数据采集论文(用人手数据教机器人操作)

用途:一眼看清"用第一视角人类数据训机器人操作"这条线都有哪些采集范式、各用什么硬件、怎么迁移。硬件型号/价格见配套 概念-第一人称数据采集硬件与成本;EgoScale 采集细节见 详读-EgoScale。 取材:11 篇论文采集章节(arXiv 已逐一核)。事实以各原文为准。

1. 逐篇速览

论文(arXiv) 采集硬件 规模 human→robot 迁移 亮点
EgoDex 2505.11709 Apple Vision Pro(机内多相机+SLAM,机上 3D 双手关节追踪,无外接手套),1080p/30Hz 829h / 33.8万 episode / 194 任务 / ~9000万帧,目前最大灵巧人手数据集 主要作大规模预训练/基准 消费级头显"零额外硬件"拿关节级手追踪 + 工业量级规模
EgoVLA 2507.12440 现成第一视角人类视频集(不自造采集器) 依赖大规模人类视频 + 自建仿真基准 学人手腕+手动作 → IK+retarget → 少量机器人微调 明确"人手动作预测→IK retarget→少量微调"三段式
EgoMimic 2410.24221 Meta Project Aria 眼镜(人戴)+ 低成本双臂机器人(运动学接近人手,机器人也戴 Aria) 人+机 co-train 数据,中等量级 人/机数据同等当实体示范,跨域对齐 + co-training 人体工学眼镜 + 缩小运动学差 → 人机数据几乎同构,可直接混训
DexWild 2505.07813 手持/掌载:单目追踪相机(ArUco 免标定腕位姿)+ EMF 电磁手套(测指尖抗遮挡)+ 掌上双目全局快门 9,290 人类 / 5 任务 / 93 环境 + 1,395 机器人;201 demos/h(比遥操快 4.6×) 掌载相机人机同位→视觉一致;IK 拟合指尖;相对位姿;co-train 掌载双目+EMF 手套的"野外灵巧手"采集,泛化到全新环境
Being-H0 2507.15597 不自造,聚合 mocap+VR+RGB 网络视频→UniHand 百万级 motion 指令实例;发 8B 模型 "physical instruction tuning":VLA 预训练+3D 对齐+机器人后训练 把人手当基础操作器,混合数据喂 VLA 预训练
HumanScale 2606.20521 立论层:海量第一视角人类视频(~10⁶h 可及) 强调量级/成本/多样性 egocentric 视频预训练 → 少量真机做 action-space 对齐 实证"egocentric 人类视频预训练 > 真机数据预训练"
DexCap 2403.07788 便携动捕:每手一副动捕手套 + 手套顶相机(SLAM 追腕 6DoF)+ RGB-D,60Hz 抗遮挡 in-the-wild mocap,经典早期方案 DexIL:IK + 点云模仿学习复刻到机器手 最早把"SLAM相机+EMF手套+RGB-D"打包成可携带采集器之一(Fei-Fei/Karen Liu, RSS24)
DexUMI 2505.21864 可穿戴手部外骨骼(硬件桥接人手↔机器手运动学差,采集即带触觉反馈);软件端机器手 inpainting 两平台真机,均成功率 86%;采集比遥操快 3.2× 外骨骼从硬件层映射人手→机器手可行动作 + inpainting 消视觉差 "穿在手上的外骨骼":采集即带触觉、动作天然可达,inpainting 抹视觉域差
UMI 2402.10329 手持平行夹爪 + 1 颗 GoPro,无动力,单目 SLAM 恢复夹爪轨迹 开源系统,支持双臂/动态/长时 硬件无关接口(延迟匹配+相对轨迹)→ 跨机器人零样本部署 "手持夹爪+GoPro"极简开山,催生整个 UMI 系
TacUMI 2601.14550 UMI 夹爪 + GelSight Mini 触觉(256×[email protected])+ 6轴力/力矩 + 无漂移位姿 面向 contact-rich(线缆装配);切段准确率 >90% 延续 UMI 同构,把触觉+力补进接触密集示范 给 UMI 加触觉+力,专攻纯视觉看不出的接触事件(与本库触觉线交叉)
MotionTrans 2509.17759 VR 头显/手柄 + 多视角相机(型号未明示,推测 Quest 系)+ 单臂机器人 3,213 示范 / 15人类+15机器人任务 / 10+ 场景 人类数据变换 + 统一状态动作空间 + 加权 co-train,端到端迁移 首个显式端到端"人→机器人 motion transfer",DP/π0 均可

2. 按采集范式归类

范式 代表 核心硬件 手/动作捕获 可穿戴?
① 头戴第一视角 EgoDex, EgoMimic(EgoVLA/HumanScale 用其数据) Apple Vision Pro / Project Aria 眼镜 头显内建多相机+SLAM,机上 3D 手追踪 佩戴
② 手持采集器(UMI 系) UMI, TacUMI, DexUMI 手持夹爪+GoPro;TacUMI 加触觉/力;DexUMI 手戴外骨骼 单目 SLAM 恢复夹爪/腕轨迹 手持/外骨骼
③ 手套+动捕(DexCap 系) DexCap, DexWild EMF 动捕手套 + 掌/腕载相机 + RGB-D/立体 EMF 测指尖 + 相机 SLAM 测腕 掌/腕载
④ VR 遥操作/采集 MotionTrans;Being-H0 部分 VR 头显+手柄 + 多视角相机 VR 追手 + 多视角 佩戴
⑤ 混合/数据聚合 Being-H0, HumanScale 无新硬件,聚合 mocap+VR+网络视频 从异构来源提取手运动

3. 收敛趋势(🤖 判断)

  • 两条底座正成公共标准:① 相对位姿 + SLAM 轨迹(几乎所有范式都靠 SLAM/标记恢复腕/夹爪 6DoF + 相对动作表征做跨本体对齐);② "同位置相机"消视觉域差(DexWild 掌载人机同位、EgoMimic 机器人也戴 Aria、DexUMI 用 inpainting 抹人手)。
  • 头戴阵营收敛到量产设备AVP(要关节级手追踪+规模)/ Aria(人体工学长时佩戴)——"不再自造采集器、直接用量产头显换规模"。
  • 精度阵营收敛到 EMF 手套 + 掌载相机(DexCap→DexWild)和 手持夹爪+GoPro(UMI→TacUMI→DexUMI)。

4. 各范式优劣

  • ① 头戴:规模最大、最省钱、场景最多样(EgoDex 829h、HumanScale 立论 ~10⁶h);但只有手/腕运动、缺力/触觉、缺夹爪闭合的精确接触信号,需 IK/retarget 跨"人手↔机器手/夹爪"本体差。
  • ② 手持 UMI 系:视觉与夹爪天然同构、部署最顺(硬件无关、零样本跨机器人);但夹爪≠灵巧手、自由度低——TacUMI/DexUMI 正补触觉/力与灵巧手外骨骼。
  • ③ 手套动捕系指尖精度高、抗遮挡,适合灵巧手;但要戴手套、有电磁标定/干扰约束,采集稍重。
  • ④ VR 系:干净 3D 手轨迹 + 可直接遥操配对数据;但需 VR 环境、野外自由度不如头戴/手持。
  • ⑤ 混合聚合:规模无上限、成本最低;但动作标签噪声大,需强物理对齐 + 后训练。

5. 最值得下全文精读

  1. EgoDex 2505.11709 —— 量级标杆(829h/33.8万),头戴 AVP 数据侧基准。
  2. DexWild 2505.07813 —— 硬件方案最完整可复现(EMF手套+掌载双目+免标定),与触觉方向最相关。
  3. DexUMI 2505.21864 —— 唯一"外骨骼+采集即带触觉+inpainting",与本库触觉×VLA 交叉最高。
  4. MotionTrans 2509.17759 —— 首个端到端人→机 motion transfer,迁移方法论最可借。 5.(选)TacUMI 2601.14550 —— UMI 加触觉+力的直接样板(GelSight Mini+6轴力)。

6. 与我们的接点

  • EgoScale/T-Rex 属"头戴+对齐"路线的顶配(3 相机 OAK + Vive + Manus + 机器人同构),见 详读-EgoScale
  • 触觉侧最相关TacUMI(UMI+GelSight)、DexUMI(外骨骼带触觉)——本库触觉采集要盯这两条;也和 追踪-纬钛机器人 的 VT-UMI85(视触觉手持采集器)同赛道。
  • 降本方法论:UMI 系(~$370)证明"无位姿真值靠 SLAM"够用;头戴系(AVP/Aria)证明"量产头显换规模"。取舍见 概念-第一人称数据采集硬件与成本

⚠️ 均为各论文自陈规模/成功率,跨工作口径不一、不可直接横比;MotionTrans 的 VR 型号未核到(推测 Quest 系)。