跳转至

详读 · EgoScale(2 万小时人类第一视角,把灵巧操作做成可预测的 scaling law)

卡片版见 卡片-EgoScale。本页是全文精读:动机 → 方法(三段配方/动作表示/架构) → 数据与采集硬件 → 实验(全表) → 洞见/局限 → 对我们。 来源:arXiv 2602.16710 v1(2026-02-18,NVIDIA GEAR + UC Berkeley + U Maryland)。作者:Ruijie Zheng、Dantong Niu、Yuqi Xie … Yuke Zhu、Danfei Xu、Linxi Fan(与 卡片-T-Rex 同 GEAR 血脉)。

0. 一句话定位

人到机器人的灵巧操作迁移,本质是个 scaling 问题:在 20,854h 动作标注的人类第一视角视频上预训练一个 flow-based VLA,发现手/腕动作预测的验证 loss 与数据量呈近乎完美的对数线性 scaling law(R²=0.9983),且该离线 loss 强预测真机成功率;再用极少量对齐的人-机 mid-training(~50h 人 + 仅 4h 机器人)落地。比无预训练 +54%,能单样本学新任务、跨迁到低自由度手。

1. 问题与动机

  • 人类行为是最可扩展的物理智能数据源,但能否支撑高自由度灵巧操作此前不清楚:以往人-机迁移工作①数据只有几十~几百小时、②多用夹爪/低 DoF 手(缺手指级 articulation)。
  • EgoScale 主张:够大规模 + 显式动作监督 + 少量对齐,就能把人类数据变成灵巧操作的可预测监督源。

2. 方法

2.1 人类动作表示(§2.1,跨本体的关键)

  • 原始流:头戴相机第一视角 RGB + off-the-shelf SLAM 估相机运动 + 手 pose(21 关键点)。
  • 手臂 = 相对腕部运动 ΔW(帧间相对 SE(3),对全局相机运动不变)——人机共享的动作抽象。
  • 手 = retarget 到 22-DoF Sharpa 手关节空间(优化法,带关节限位)——保留人手指 articulation。
  • ⚠️ 消融(§3.6):retarget 22-DoF 关节 > wrist-only(去手指监督)> fingertip-based(SE3)——手指级监督是关键,wrist-only 明显掉分。

2.2 模型架构(§2.3)

  • flow-based VLA,架构近 GR00T N1:条件 o_t=(图像, 语言)→视觉语言 embedding φ_t→flow-matching 出未来动作块。
  • 人类数据无本体感 q_t → 用可学 placeholder token 替代,统一人机建模、不改架构。
  • 多本体:输入输出用轻量 embodiment-conditioned MLP adapter(编本体 state、解手动作);共享 VL 骨干 + DiT 动作专家 + 相对腕运动预测

2.3 三段训练配方(§2.4,含算力)

  1. Stage I 人类预训练:20K h,100K 步,256× GB200 GPU,global batch 8,192,LR 5e-5,全解冻
  2. Stage II 对齐 mid-training:50K 步,batch 2,048,LR 3e-5,冻 VL 骨干、只更新视觉编码器 + DiT(把表征锚到机器人传感/控制)。
  3. Stage III post-training:任务特定,10K 步,batch 512,LR 3e-5(用 mid-training 则冻视觉编码器)。
  4. 设计哲学:Stage I 供多样性/语义、Stage II 供人机精确对应——scale 与 alignment 解耦。

3. 数据与采集硬件(§2.2 / §2.5 / Fig9)

  • 预训练 20,854h:主体 in-the-wild 第一视角(9,869 场景 / 6,015 任务 / 43,237 物体)+ 829h EgoDex(用 Apple Vision Pro 采、腕手追踪更准)。均 30 FPS RGB
  • mid-training344 桌面任务,每任务~30 人 + 5 机器人轨迹 → ~50h 人 + 4h 机器人
  • 采集硬件(3 相机)1 头戴 OAK-D-Wide(第一视角)+ 2 腕部 OAK-1-Wide(装每腕内侧、朝手掌,拍近距手-物);全 30 FPS。人采数据额外 Vive tracker(腕 6D 位姿)+ Manus 手套(手内 25 关节);EgoDex 部分用 Apple Vision Pro与机器人同相机配置以对齐。
  • 机器人:主平台 Galaxea R1 Pro 轮式人形(固定底座躯干、双 7-DoF 臂相对末端)+ 22-DoF Sharpa Wave 手;跨本体 Unitree G1(7-DoF 三指手,OAK-D-Wide 头 + 2× OAK-1-Wide 腕)。

4. 实验(全表)

评测设置(§3.1)

  • 5 任务:① 卷衬衫(变形,20 演示) ② 分卡插槽 ③ 夹子夹水果(工具使用) ④ 拧瓶盖(4 瓶×25) ⑤ 注射器移液(最难:取注射器→A 管抽液→注入 B 管→丢垃圾桶,长程多步)。每任务 100 演示(卷衬衫 20)。
  • 2 随机种子;每 checkpoint 10 trials(拧瓶盖 4 瓶×4=16);image-overlay 初始化统一场景;报成功率 + 完成分。

主结果(§3.2,Fig4)四 checkpoint

  • 人类预训练 > 从零:平均完成分 +55%
  • 大规模人类预训练(噪声/未对齐)已 > mid-training-only(多数任务)——规模+多样性本身就是强 inductive bias,即使没精确本体对齐。
  • Pretrain + Midtrain = 最好(互补:人类数据给通用结构,mid-training 锚到可执行控制)。

Scaling law(§3.3,Fig5)★核心

  • 数据量 1k/2k/4k/10k/20k h → 下游平均完成分 0.30 / 0.45 / 0.48 / 0.57 / 0.71,单调升、无饱和
  • 验证 loss(2000 held-out 第一视角 episode,每 traj 20 步、16 采样均值 vs GT 腕手动作 MSE):小数据(1k-2k)早期过拟合/平台,大数据(10k-20k)稳定单调降。
  • 拟合出对数线性 scaling law:L = 0.024 − 0.003·ln(D),R²=0.9983(D=小时数)。
  • 关键:离线验证 loss 强预测真机成功率 → loss 是有意义的"具身控制能力指标",不只是离线数。

单样本迁移(§3.4,Fig6)

  • 新任务(叠衬衫、拧水瓶,均不在 mid-training):1 条机器人演示 + 100 条对齐人类演示 post-train。
  • Pretrain+Midtrain:叠衬衫 0.88、拧水瓶 0.55缺预训练或缺 mid-training 的都失败。→ 这种单样本迁移不来自单一阶段,是对齐 mid-training 涌现的。

跨本体(§3.5,Fig7)

  • Unitree G1(7-DoF 三指、短臂、迥异运动学)。任务:Pen in Bin、Dish in Rack(下身平衡/移动交给单独训的 Homie 策略)。
  • mid-training 掺入少量 G1 play 数据 → 两任务显著提升,优于只用 G1 数据没有人类预训练的 G1-only 达不到同等成功率,且人类预训练策略行为更平滑。→ 人类预训练学到的是可复用、跨本体的操作结构

5. 洞见 / 对我们

  • "验证 loss 预测下游性能"是最值钱的方法论:给了一个不上真机就能预判策略强弱的代理指标(R²=0.9983)——对我们排优先级、判断别人工作含金量极有用。
  • 数据战略贵模态(机器人 4h)放最省阶段、便宜模态(人类 2 万 h)扛规模——与 卡片-T-Rex"触觉放 mid-training 不放预训练"同构,互为印证。
  • 手指级监督是跨本体的关键(消融):动作表示别只用 wrist,retarget 到高 DoF 手关节才迁得动。
  • 与 T-Rex 是上下游:EgoScale 给视觉动作先验(无触觉),T-Rex 在其 mid-training 注入触觉专家。本库触觉×VLA 主线这两张连起来读。

6. 局限(§正文 + 推断)

  • 依赖 off-the-shelf SLAM + 手 pose 估计,人类标注有噪声(作者承认、用规模抵消)。
  • 算力工业级(256×GB200 预训练),中小团队只能复用权重/借配方。
  • 代码/权重正文未核到公开链接;scaling law 在 1k-20k 内成立、未外推
  • 纯视觉、无触觉——正是 T-Rex 补的那块。

7. 🧑‍⚖️ 审稿视角(🤖 我的判断,需人复核)

  • 强点:scaling law 干净(R²=0.9983)、离线 loss↔真机强相关的证据体系完整;三段配方消融充分;跨本体(G1)有验证;NVIDIA GEAR 大团队。
  • 可疑/待验证:① 每任务 10 trials(拧瓶盖 16)、2 seeds,样本量偏小、方差未充分报;② benchmark 自采、无第三方复现;③ 未开源(截至读到),复现门槛极高(256×GB200);④ 数据数字 20,854h卡片-T-Rex 引用的 22,889h 不一致(口径差,以各自原文为准)。
  • 证据档:全文 + 强结果 → 🔶(自采、无外部复现、未开源);scaling law 论证本身可信度高。

来源