详读 · EgoScale（2 万小时人类第一视角，把灵巧操作做成可预测的 scaling law）¶

卡片版见卡片-EgoScale。本页是全文精读：动机 → 方法(三段配方/动作表示/架构) → 数据与采集硬件 → 实验(全表) → 洞见/局限 → 对我们。来源：arXiv 2602.16710 v1（2026-02-18，NVIDIA GEAR + UC Berkeley + U Maryland）。作者：Ruijie Zheng、Dantong Niu、Yuqi Xie … Yuke Zhu、Danfei Xu、Linxi Fan（与卡片-T-Rex 同 GEAR 血脉）。

0. 一句话定位¶

人到机器人的灵巧操作迁移，本质是个 scaling 问题：在 20,854h 动作标注的人类第一视角视频上预训练一个 flow-based VLA，发现手/腕动作预测的验证 loss 与数据量呈近乎完美的对数线性 scaling law（R²=0.9983），且该离线 loss 强预测真机成功率；再用极少量对齐的人-机 mid-training（~50h 人 + 仅 4h 机器人）落地。比无预训练 +54%，能单样本学新任务、跨迁到低自由度手。

1. 问题与动机¶

人类行为是最可扩展的物理智能数据源，但能否支撑高自由度灵巧操作此前不清楚：以往人-机迁移工作①数据只有几十~几百小时、②多用夹爪/低 DoF 手（缺手指级 articulation）。
EgoScale 主张：够大规模 + 显式动作监督 + 少量对齐，就能把人类数据变成灵巧操作的可预测监督源。

2. 方法¶

2.1 人类动作表示（§2.1，跨本体的关键）¶

原始流：头戴相机第一视角 RGB + off-the-shelf SLAM 估相机运动 + 手 pose（21 关键点）。
手臂 = 相对腕部运动 ΔW（帧间相对 SE(3)，对全局相机运动不变）——人机共享的动作抽象。
手 = retarget 到 22-DoF Sharpa 手关节空间（优化法，带关节限位）——保留人手指 articulation。
⚠️ 消融（§3.6）：retarget 22-DoF 关节 > wrist-only（去手指监督）> fingertip-based(SE3)——手指级监督是关键，wrist-only 明显掉分。

2.2 模型架构（§2.3）¶

flow-based VLA，架构近 GR00T N1：条件 o_t=(图像, 语言)→视觉语言 embedding φ_t→flow-matching 出未来动作块。
人类数据无本体感 q_t → 用可学 placeholder token 替代，统一人机建模、不改架构。
多本体：输入输出用轻量 embodiment-conditioned MLP adapter（编本体 state、解手动作）；共享 VL 骨干 + DiT 动作专家 + 相对腕运动预测。

2.3 三段训练配方（§2.4，含算力）¶

Stage I 人类预训练：20K h，100K 步，256× GB200 GPU，global batch 8,192，LR 5e-5，全解冻。
Stage II 对齐 mid-training：50K 步，batch 2,048，LR 3e-5，冻 VL 骨干、只更新视觉编码器 + DiT（把表征锚到机器人传感/控制）。
Stage III post-training：任务特定，10K 步，batch 512，LR 3e-5（用 mid-training 则冻视觉编码器）。
设计哲学：Stage I 供多样性/语义、Stage II 供人机精确对应——scale 与 alignment 解耦。

3. 数据与采集硬件（§2.2 / §2.5 / Fig9）¶

预训练 20,854h：主体 in-the-wild 第一视角（9,869 场景 / 6,015 任务 / 43,237 物体）+ 829h EgoDex（用 Apple Vision Pro 采、腕手追踪更准）。均 30 FPS RGB。
mid-training：344 桌面任务，每任务~30 人 + 5 机器人轨迹 → ~50h 人 + 4h 机器人。
采集硬件（3 相机）：1 头戴 OAK-D-Wide（第一视角）+ 2 腕部 OAK-1-Wide（装每腕内侧、朝手掌，拍近距手-物）；全 30 FPS。人采数据额外 Vive tracker（腕 6D 位姿）+ Manus 手套（手内 25 关节）；EgoDex 部分用 Apple Vision Pro。与机器人同相机配置以对齐。
机器人：主平台 Galaxea R1 Pro 轮式人形（固定底座躯干、双 7-DoF 臂相对末端）+ 22-DoF Sharpa Wave 手；跨本体 Unitree G1（7-DoF 三指手，OAK-D-Wide 头 + 2× OAK-1-Wide 腕）。

4. 实验（全表）¶

评测设置（§3.1）¶

5 任务：① 卷衬衫(变形，20 演示) ② 分卡插槽 ③ 夹子夹水果(工具使用) ④ 拧瓶盖(4 瓶×25) ⑤ 注射器移液(最难：取注射器→A 管抽液→注入 B 管→丢垃圾桶，长程多步)。每任务 100 演示(卷衬衫 20)。
2 随机种子；每 checkpoint 10 trials（拧瓶盖 4 瓶×4=16）；image-overlay 初始化统一场景；报成功率 + 完成分。

主结果（§3.2，Fig4）四 checkpoint¶

人类预训练 > 从零：平均完成分 +55%。
大规模人类预训练（噪声/未对齐）已 > mid-training-only（多数任务）——规模+多样性本身就是强 inductive bias，即使没精确本体对齐。
Pretrain + Midtrain = 最好（互补：人类数据给通用结构，mid-training 锚到可执行控制）。

Scaling law（§3.3，Fig5）★核心¶

数据量 1k/2k/4k/10k/20k h → 下游平均完成分 0.30 / 0.45 / 0.48 / 0.57 / 0.71，单调升、无饱和。
验证 loss（2000 held-out 第一视角 episode，每 traj 20 步、16 采样均值 vs GT 腕手动作 MSE）：小数据(1k-2k)早期过拟合/平台，大数据(10k-20k)稳定单调降。
拟合出对数线性 scaling law：L = 0.024 − 0.003·ln(D)，R²=0.9983（D=小时数）。
关键：离线验证 loss 强预测真机成功率 → loss 是有意义的"具身控制能力指标"，不只是离线数。

单样本迁移（§3.4，Fig6）¶

对新任务（叠衬衫、拧水瓶，均不在 mid-training）：1 条机器人演示 + 100 条对齐人类演示 post-train。
Pretrain+Midtrain：叠衬衫 0.88、拧水瓶 0.55；缺预训练或缺 mid-training 的都失败。→ 这种单样本迁移不来自单一阶段，是对齐 mid-training 涌现的。

跨本体（§3.5，Fig7）¶

Unitree G1（7-DoF 三指、短臂、迥异运动学）。任务：Pen in Bin、Dish in Rack（下身平衡/移动交给单独训的 Homie 策略）。
mid-training 掺入少量 G1 play 数据 → 两任务显著提升，优于只用 G1 数据；没有人类预训练的 G1-only 达不到同等成功率，且人类预训练策略行为更平滑。→ 人类预训练学到的是可复用、跨本体的操作结构。

5. 洞见 / 对我们¶

"验证 loss 预测下游性能"是最值钱的方法论：给了一个不上真机就能预判策略强弱的代理指标（R²=0.9983）——对我们排优先级、判断别人工作含金量极有用。
数据战略：贵模态（机器人 4h）放最省阶段、便宜模态（人类 2 万 h）扛规模——与卡片-T-Rex"触觉放 mid-training 不放预训练"同构，互为印证。
手指级监督是跨本体的关键（消融）：动作表示别只用 wrist，retarget 到高 DoF 手关节才迁得动。
与 T-Rex 是上下游：EgoScale 给视觉动作先验（无触觉），T-Rex 在其 mid-training 注入触觉专家。本库触觉×VLA 主线这两张连起来读。

6. 局限（§正文 + 推断）¶

依赖 off-the-shelf SLAM + 手 pose 估计，人类标注有噪声（作者承认、用规模抵消）。
算力工业级（256×GB200 预训练），中小团队只能复用权重/借配方。
代码/权重正文未核到公开链接；scaling law 在 1k-20k 内成立、未外推。
纯视觉、无触觉——正是 T-Rex 补的那块。

7. 🧑‍⚖️ 审稿视角（🤖 我的判断，需人复核）¶

强点：scaling law 干净(R²=0.9983)、离线 loss↔真机强相关的证据体系完整；三段配方消融充分；跨本体(G1)有验证；NVIDIA GEAR 大团队。
可疑/待验证：① 每任务 10 trials（拧瓶盖 16）、2 seeds，样本量偏小、方差未充分报；② benchmark 自采、无第三方复现；③ 未开源（截至读到），复现门槛极高（256×GB200）；④ 数据数字 20,854h 与卡片-T-Rex 引用的 22,889h 不一致（口径差，以各自原文为准）。
证据档：全文 + 强结果 → 🔶（自采、无外部复现、未开源）；scaling law 论证本身可信度高。

来源¶

arXiv 2602.16710 v1 · NVIDIA GEAR 项目页 · 本地 papers/EgoScale-ScalingDexterousEgocentricHumanData-2602.16710.pdf（全文精读 2026-07-03，节次标注均一手核实）。