详读 · EgoScale(2 万小时人类第一视角,把灵巧操作做成可预测的 scaling law)¶
卡片版见 卡片-EgoScale。本页是全文精读:动机 → 方法(三段配方/动作表示/架构) → 数据与采集硬件 → 实验(全表) → 洞见/局限 → 对我们。 来源:arXiv 2602.16710 v1(2026-02-18,NVIDIA GEAR + UC Berkeley + U Maryland)。作者:Ruijie Zheng、Dantong Niu、Yuqi Xie … Yuke Zhu、Danfei Xu、Linxi Fan(与 卡片-T-Rex 同 GEAR 血脉)。
0. 一句话定位¶
人到机器人的灵巧操作迁移,本质是个 scaling 问题:在 20,854h 动作标注的人类第一视角视频上预训练一个 flow-based VLA,发现手/腕动作预测的验证 loss 与数据量呈近乎完美的对数线性 scaling law(R²=0.9983),且该离线 loss 强预测真机成功率;再用极少量对齐的人-机 mid-training(~50h 人 + 仅 4h 机器人)落地。比无预训练 +54%,能单样本学新任务、跨迁到低自由度手。
1. 问题与动机¶
- 人类行为是最可扩展的物理智能数据源,但能否支撑高自由度灵巧操作此前不清楚:以往人-机迁移工作①数据只有几十~几百小时、②多用夹爪/低 DoF 手(缺手指级 articulation)。
- EgoScale 主张:够大规模 + 显式动作监督 + 少量对齐,就能把人类数据变成灵巧操作的可预测监督源。
2. 方法¶
2.1 人类动作表示(§2.1,跨本体的关键)¶
- 原始流:头戴相机第一视角 RGB + off-the-shelf SLAM 估相机运动 + 手 pose(21 关键点)。
- 手臂 = 相对腕部运动 ΔW(帧间相对 SE(3),对全局相机运动不变)——人机共享的动作抽象。
- 手 = retarget 到 22-DoF Sharpa 手关节空间(优化法,带关节限位)——保留人手指 articulation。
- ⚠️ 消融(§3.6):retarget 22-DoF 关节 > wrist-only(去手指监督)> fingertip-based(SE3)——手指级监督是关键,wrist-only 明显掉分。
2.2 模型架构(§2.3)¶
- flow-based VLA,架构近 GR00T N1:条件 o_t=(图像, 语言)→视觉语言 embedding φ_t→flow-matching 出未来动作块。
- 人类数据无本体感 q_t → 用可学 placeholder token 替代,统一人机建模、不改架构。
- 多本体:输入输出用轻量 embodiment-conditioned MLP adapter(编本体 state、解手动作);共享 VL 骨干 + DiT 动作专家 + 相对腕运动预测。
2.3 三段训练配方(§2.4,含算力)¶
- Stage I 人类预训练:20K h,100K 步,256× GB200 GPU,global batch 8,192,LR 5e-5,全解冻。
- Stage II 对齐 mid-training:50K 步,batch 2,048,LR 3e-5,冻 VL 骨干、只更新视觉编码器 + DiT(把表征锚到机器人传感/控制)。
- Stage III post-training:任务特定,10K 步,batch 512,LR 3e-5(用 mid-training 则冻视觉编码器)。
- 设计哲学:Stage I 供多样性/语义、Stage II 供人机精确对应——scale 与 alignment 解耦。
3. 数据与采集硬件(§2.2 / §2.5 / Fig9)¶
- 预训练 20,854h:主体 in-the-wild 第一视角(9,869 场景 / 6,015 任务 / 43,237 物体)+ 829h EgoDex(用 Apple Vision Pro 采、腕手追踪更准)。均 30 FPS RGB。
- mid-training:344 桌面任务,每任务~30 人 + 5 机器人轨迹 → ~50h 人 + 4h 机器人。
- 采集硬件(3 相机):1 头戴 OAK-D-Wide(第一视角)+ 2 腕部 OAK-1-Wide(装每腕内侧、朝手掌,拍近距手-物);全 30 FPS。人采数据额外 Vive tracker(腕 6D 位姿)+ Manus 手套(手内 25 关节);EgoDex 部分用 Apple Vision Pro。与机器人同相机配置以对齐。
- 机器人:主平台 Galaxea R1 Pro 轮式人形(固定底座躯干、双 7-DoF 臂相对末端)+ 22-DoF Sharpa Wave 手;跨本体 Unitree G1(7-DoF 三指手,OAK-D-Wide 头 + 2× OAK-1-Wide 腕)。
4. 实验(全表)¶
评测设置(§3.1)¶
- 5 任务:① 卷衬衫(变形,20 演示) ② 分卡插槽 ③ 夹子夹水果(工具使用) ④ 拧瓶盖(4 瓶×25) ⑤ 注射器移液(最难:取注射器→A 管抽液→注入 B 管→丢垃圾桶,长程多步)。每任务 100 演示(卷衬衫 20)。
- 2 随机种子;每 checkpoint 10 trials(拧瓶盖 4 瓶×4=16);image-overlay 初始化统一场景;报成功率 + 完成分。
主结果(§3.2,Fig4)四 checkpoint¶
- 人类预训练 > 从零:平均完成分 +55%。
- 大规模人类预训练(噪声/未对齐)已 > mid-training-only(多数任务)——规模+多样性本身就是强 inductive bias,即使没精确本体对齐。
- Pretrain + Midtrain = 最好(互补:人类数据给通用结构,mid-training 锚到可执行控制)。
Scaling law(§3.3,Fig5)★核心¶
- 数据量 1k/2k/4k/10k/20k h → 下游平均完成分 0.30 / 0.45 / 0.48 / 0.57 / 0.71,单调升、无饱和。
- 验证 loss(2000 held-out 第一视角 episode,每 traj 20 步、16 采样均值 vs GT 腕手动作 MSE):小数据(1k-2k)早期过拟合/平台,大数据(10k-20k)稳定单调降。
- 拟合出对数线性 scaling law:
L = 0.024 − 0.003·ln(D),R²=0.9983(D=小时数)。 - 关键:离线验证 loss 强预测真机成功率 → loss 是有意义的"具身控制能力指标",不只是离线数。
单样本迁移(§3.4,Fig6)¶
- 对新任务(叠衬衫、拧水瓶,均不在 mid-training):1 条机器人演示 + 100 条对齐人类演示 post-train。
- Pretrain+Midtrain:叠衬衫 0.88、拧水瓶 0.55;缺预训练或缺 mid-training 的都失败。→ 这种单样本迁移不来自单一阶段,是对齐 mid-training 涌现的。
跨本体(§3.5,Fig7)¶
- Unitree G1(7-DoF 三指、短臂、迥异运动学)。任务:Pen in Bin、Dish in Rack(下身平衡/移动交给单独训的 Homie 策略)。
- mid-training 掺入少量 G1 play 数据 → 两任务显著提升,优于只用 G1 数据;没有人类预训练的 G1-only 达不到同等成功率,且人类预训练策略行为更平滑。→ 人类预训练学到的是可复用、跨本体的操作结构。
5. 洞见 / 对我们¶
- "验证 loss 预测下游性能"是最值钱的方法论:给了一个不上真机就能预判策略强弱的代理指标(R²=0.9983)——对我们排优先级、判断别人工作含金量极有用。
- 数据战略:贵模态(机器人 4h)放最省阶段、便宜模态(人类 2 万 h)扛规模——与 卡片-T-Rex"触觉放 mid-training 不放预训练"同构,互为印证。
- 手指级监督是跨本体的关键(消融):动作表示别只用 wrist,retarget 到高 DoF 手关节才迁得动。
- 与 T-Rex 是上下游:EgoScale 给视觉动作先验(无触觉),T-Rex 在其 mid-training 注入触觉专家。本库触觉×VLA 主线这两张连起来读。
6. 局限(§正文 + 推断)¶
- 依赖 off-the-shelf SLAM + 手 pose 估计,人类标注有噪声(作者承认、用规模抵消)。
- 算力工业级(256×GB200 预训练),中小团队只能复用权重/借配方。
- 代码/权重正文未核到公开链接;scaling law 在 1k-20k 内成立、未外推。
- 纯视觉、无触觉——正是 T-Rex 补的那块。
7. 🧑⚖️ 审稿视角(🤖 我的判断,需人复核)¶
- 强点:scaling law 干净(R²=0.9983)、离线 loss↔真机强相关的证据体系完整;三段配方消融充分;跨本体(G1)有验证;NVIDIA GEAR 大团队。
- 可疑/待验证:① 每任务 10 trials(拧瓶盖 16)、2 seeds,样本量偏小、方差未充分报;② benchmark 自采、无第三方复现;③ 未开源(截至读到),复现门槛极高(256×GB200);④ 数据数字 20,854h 与 卡片-T-Rex 引用的 22,889h 不一致(口径差,以各自原文为准)。
- 证据档:全文 + 强结果 → 🔶(自采、无外部复现、未开源);scaling law 论证本身可信度高。
来源¶
- arXiv 2602.16710 v1 · NVIDIA GEAR 项目页 · 本地
papers/EgoScale-ScalingDexterousEgocentricHumanData-2602.16710.pdf(全文精读 2026-07-03,节次标注均一手核实)。