综述 · 第一人称人类数据采集论文（用人手数据教机器人操作）¶

用途：一眼看清"用第一视角人类数据训机器人操作"这条线都有哪些采集范式、各用什么硬件、怎么迁移。硬件型号/价格见配套概念-第一人称数据采集硬件与成本；EgoScale 采集细节见详读-EgoScale。取材：11 篇论文采集章节（arXiv 已逐一核）。事实以各原文为准。

1. 逐篇速览¶

论文(arXiv)	采集硬件	规模	human→robot 迁移	亮点
EgoDex 2505.11709	Apple Vision Pro（机内多相机+SLAM，机上 3D 双手关节追踪，无外接手套），1080p/30Hz	829h / 33.8万 episode / 194 任务 / ~9000万帧，目前最大灵巧人手数据集	主要作大规模预训练/基准	消费级头显"零额外硬件"拿关节级手追踪 + 工业量级规模
EgoVLA 2507.12440	用现成第一视角人类视频集（不自造采集器）	依赖大规模人类视频 + 自建仿真基准	学人手腕+手动作 → IK+retarget → 少量机器人微调	明确"人手动作预测→IK retarget→少量微调"三段式
EgoMimic 2410.24221	Meta Project Aria 眼镜（人戴）+ 低成本双臂机器人（运动学接近人手，机器人也戴 Aria）	人+机 co-train 数据，中等量级	人/机数据同等当实体示范，跨域对齐 + co-training	人体工学眼镜 + 缩小运动学差 → 人机数据几乎同构，可直接混训
DexWild 2505.07813	手持/掌载：单目追踪相机(ArUco 免标定腕位姿)+ EMF 电磁手套(测指尖抗遮挡)+ 掌上双目全局快门	9,290 人类 / 5 任务 / 93 环境 + 1,395 机器人；201 demos/h(比遥操快 4.6×)	掌载相机人机同位→视觉一致；IK 拟合指尖；相对位姿；co-train	掌载双目+EMF 手套的"野外灵巧手"采集，泛化到全新环境
Being-H0 2507.15597	不自造，聚合 mocap+VR+RGB 网络视频→UniHand	百万级 motion 指令实例；发 8B 模型	"physical instruction tuning"：VLA 预训练+3D 对齐+机器人后训练	把人手当基础操作器，混合数据喂 VLA 预训练
HumanScale 2606.20521	立论层：海量第一视角人类视频(~10⁶h 可及)	强调量级/成本/多样性	egocentric 视频预训练 → 少量真机做 action-space 对齐	实证"egocentric 人类视频预训练 > 真机数据预训练"
DexCap 2403.07788	便携动捕：每手一副动捕手套 + 手套顶相机(SLAM 追腕 6DoF)+ RGB-D，60Hz 抗遮挡	in-the-wild mocap，经典早期方案	DexIL：IK + 点云模仿学习复刻到机器手	最早把"SLAM相机+EMF手套+RGB-D"打包成可携带采集器之一(Fei-Fei/Karen Liu, RSS24)
DexUMI 2505.21864	可穿戴手部外骨骼（硬件桥接人手↔机器手运动学差，采集即带触觉反馈）；软件端机器手 inpainting	两平台真机，均成功率 86%；采集比遥操快 3.2×	外骨骼从硬件层映射人手→机器手可行动作 + inpainting 消视觉差	"穿在手上的外骨骼"：采集即带触觉、动作天然可达，inpainting 抹视觉域差
UMI 2402.10329	手持平行夹爪 + 1 颗 GoPro，无动力，单目 SLAM 恢复夹爪轨迹	开源系统，支持双臂/动态/长时	硬件无关接口(延迟匹配+相对轨迹)→ 跨机器人零样本部署	"手持夹爪+GoPro"极简开山，催生整个 UMI 系
TacUMI 2601.14550	UMI 夹爪 + GelSight Mini 触觉(256×[email protected])+ 6轴力/力矩 + 无漂移位姿	面向 contact-rich（线缆装配）；切段准确率 >90%	延续 UMI 同构，把触觉+力补进接触密集示范	给 UMI 加触觉+力，专攻纯视觉看不出的接触事件（与本库触觉线交叉）
MotionTrans 2509.17759	VR 头显/手柄 + 多视角相机（型号未明示，推测 Quest 系）+ 单臂机器人	3,213 示范 / 15人类+15机器人任务 / 10+ 场景	人类数据变换 + 统一状态动作空间 + 加权 co-train，端到端迁移	首个显式端到端"人→机器人 motion transfer"，DP/π0 均可

2. 按采集范式归类¶

范式	代表	核心硬件	手/动作捕获	可穿戴?
① 头戴第一视角	EgoDex, EgoMimic（EgoVLA/HumanScale 用其数据）	Apple Vision Pro / Project Aria 眼镜	头显内建多相机+SLAM，机上 3D 手追踪	佩戴
② 手持采集器(UMI 系)	UMI, TacUMI, DexUMI	手持夹爪+GoPro；TacUMI 加触觉/力；DexUMI 手戴外骨骼	单目 SLAM 恢复夹爪/腕轨迹	手持/外骨骼
③ 手套+动捕(DexCap 系)	DexCap, DexWild	EMF 动捕手套 + 掌/腕载相机 + RGB-D/立体	EMF 测指尖 + 相机 SLAM 测腕	掌/腕载
④ VR 遥操作/采集	MotionTrans；Being-H0 部分	VR 头显+手柄 + 多视角相机	VR 追手 + 多视角	佩戴
⑤ 混合/数据聚合	Being-H0, HumanScale	无新硬件，聚合 mocap+VR+网络视频	从异构来源提取手运动	—

3. 收敛趋势（🤖 判断）¶

两条底座正成公共标准：① 相对位姿 + SLAM 轨迹（几乎所有范式都靠 SLAM/标记恢复腕/夹爪 6DoF + 相对动作表征做跨本体对齐）；② "同位置相机"消视觉域差（DexWild 掌载人机同位、EgoMimic 机器人也戴 Aria、DexUMI 用 inpainting 抹人手）。
头戴阵营收敛到量产设备：AVP（要关节级手追踪+规模）/ Aria（人体工学长时佩戴）——"不再自造采集器、直接用量产头显换规模"。
精度阵营收敛到 EMF 手套 + 掌载相机（DexCap→DexWild）和 手持夹爪+GoPro（UMI→TacUMI→DexUMI）。

4. 各范式优劣¶

① 头戴：规模最大、最省钱、场景最多样（EgoDex 829h、HumanScale 立论 ~10⁶h）；但只有手/腕运动、缺力/触觉、缺夹爪闭合的精确接触信号，需 IK/retarget 跨"人手↔机器手/夹爪"本体差。
② 手持 UMI 系：视觉与夹爪天然同构、部署最顺（硬件无关、零样本跨机器人）；但夹爪≠灵巧手、自由度低——TacUMI/DexUMI 正补触觉/力与灵巧手外骨骼。
③ 手套动捕系：指尖精度高、抗遮挡，适合灵巧手；但要戴手套、有电磁标定/干扰约束，采集稍重。
④ VR 系：干净 3D 手轨迹 + 可直接遥操配对数据；但需 VR 环境、野外自由度不如头戴/手持。
⑤ 混合聚合：规模无上限、成本最低；但动作标签噪声大，需强物理对齐 + 后训练。

5. 最值得下全文精读¶

EgoDex 2505.11709 —— 量级标杆（829h/33.8万），头戴 AVP 数据侧基准。
DexWild 2505.07813 —— 硬件方案最完整可复现（EMF手套+掌载双目+免标定），与触觉方向最相关。
DexUMI 2505.21864 —— 唯一"外骨骼+采集即带触觉+inpainting"，与本库触觉×VLA 交叉最高。
MotionTrans 2509.17759 —— 首个端到端人→机 motion transfer，迁移方法论最可借。 5.（选）TacUMI 2601.14550 —— UMI 加触觉+力的直接样板（GelSight Mini+6轴力）。

6. 与我们的接点¶

EgoScale/T-Rex 属"头戴+对齐"路线的顶配（3 相机 OAK + Vive + Manus + 机器人同构），见详读-EgoScale。
触觉侧最相关：TacUMI（UMI+GelSight）、DexUMI（外骨骼带触觉）——本库触觉采集要盯这两条；也和追踪-纬钛机器人的 VT-UMI85（视触觉手持采集器）同赛道。
降本方法论：UMI 系（~$370）证明"无位姿真值靠 SLAM"够用；头戴系（AVP/Aria）证明"量产头显换规模"。取舍见概念-第一人称数据采集硬件与成本。

⚠️ 均为各论文自陈规模/成功率，跨工作口径不一、不可直接横比；MotionTrans 的 VR 型号未核到（推测 Quest 系）。