EgoScale:把"人当成另一种可扩展本体",用规模换灵巧¶
📌 一句话省流:核心主张——人类到机器人的灵巧操作迁移,本质是个 scaling 问题。做法:在 20,854 小时动作标注的人类第一视角视频上预训练一个 flow-based VLA(比以往大 20×),发现手/腕动作预测的验证 loss 与数据量呈对数线性 scaling law,且该 loss 强相关于真机下游成功率;再用极少量对齐的人-机 mid-training 数据(50h 人 + 仅 4h 机器人)落地到机器人。最终比"无预训练"基线平均 +54%(22-DoF 灵巧手),并能单样本适应新任务、跨迁移到低自由度手。
🎬 项目页:NVIDIA GEAR / EgoScale 🔬 全文精读(逐模块方法 + 全量数字 + 采集硬件 + 审稿视角):详读-EgoScale
🧰 对我们(可用性速判)¶
- 对我们的用处:高(作为基础设施/血统理解)。它是 卡片-T-Rex 的预训练骨干——不懂 EgoScale 就没法真正理解 T-Rex 的"人类视频预训练→触觉 mid-training→任务 post-training"三段配方从何而来。其"验证 loss 可预测下游性能"是选模/投资的判断利器。
- 真实性:NVIDIA GEAR 大团队、scaling law 证据体系完整 → 事实档 🔶(可信,暂无外部复现)。
- 训练/微调资源:极重。2 万小时视频预训练是工业级算力;但下游只需 ~4h 机器人数据是最大卖点(数据侧极省)。
- 能借多少(开源):正文未核到代码公开;思路与数据配方可借,权重可能随 GEAR 生态放出。
- 可用性结论:当"方法论 + T-Rex 上游"来读。全流程复现不现实,但"人类视频当可扩展本体 + 少量对齐 mid-training"的范式可直接指导我们的数据战略。
亮点到底在哪(读核心后定位)¶
- 亮点在"scaling law + 迁移配方":
- Scaling law:手腕/手指动作预测验证 loss 随数据量对数线性下降,且与真机长程操作成功率强相关——把"多喂人类数据"变成可外推、可预测的监督源。
- 两段迁移配方:大规模人类预训练(wrist 相对运动 + retarget 到 22-DoF Sharpa 手关节的显式动作监督)→ 轻量人-机对齐 mid-training(同相机配置、同视角),把表征接地到机器人传感/控制空间。
- 涌现的单样本/少样本泛化:mid-training 后,1 条机器人演示即可让叠衬衫达 ~88%(尽管 mid-training 只含叠衣行为);跨迁到 Unitree G1 三指手仍 +30% 绝对提升。
- 关键设计:动作用相对腕部运动(对全局相机运动不变)+ retarget 高 DoF 手关节 → 人机共享动作抽象,是跨本体的关键。
关键数字(一手核实,标节次·出处见[1])¶
- 预训练数据 20,854h(摘要/§2.2)人类第一视角:in-the-wild(9,869 场景 / 6,015 任务 / 43,237 物体)+ 829h EgoDex(Apple Vision Pro 高精度腕手追踪)。均 30 FPS RGB(§2.2)。
- ⚠️ 跨源数字矛盾:卡片-T-Rex/详读-T-Rex 引用 EgoScale 为 22,889h,与 EgoScale 原文自陈 20,854h 不一致。→ 以 EgoScale 原文 20,854h 为准;T-Rex 那处口径待核(差约 2,035h,非 EgoDex 的 829h,来源不明)。
- mid-training(§2.2):344 桌面任务,每任务约 30 条人 + 5 条机器人轨迹 → ≈50h 人 + 仅 4h 机器人。
- 结果(摘要/§3):22-DoF 手 +54% vs 无预训练;单样本叠衬衫 0.88(Pretrain+Midtrain,§3 Fig6);跨迁 Unitree G1 三指手 +30% 绝对(两任务)。
- Scaling law(§3):手/腕动作预测验证 loss vs 数据量近乎完美对数线性,R²=0.9983;该 loss 强相关真机成功率。
- 评测任务(§3.1):5 个灵巧任务 = 卷衬衫 / 分卡插槽 / 夹子夹水果 / 拧瓶盖(4 瓶×25) / 注射器;每任务 100 演示(卷衬衫仅 20)。
- 动作表示消融(§正文):retarget 22-DoF 手关节 > wrist-only > fingertip-based(SE3) —— 动作表示强影响性能,手指级监督是关键(wrist-only 明显掉分)。
🧪 复现硬件与算力(一手核实 §2.3–2.5 / Fig9;[1])¶
- 相机 = 3 个 RGB(§2.5):1 头戴(第一视角,与人类视频一致)+ 2 腕部(装每只手腕内侧、朝手掌,拍近距手-物交互,供精细操作视觉反馈)。型号:头 OAK-D-Wide、腕 2× OAK-1-Wide(Fig9)。全 30 FPS。
- 人采数据额外设备(§2.2):Vive tracker(腕 6D 位姿)+ Manus 手套(手内 25 关节);与机器人同相机配置以便人机对齐。EgoDex 那部分改用 Apple Vision Pro 采(腕手追踪更准)。
- 机器人平台(§2.5):主平台 Galaxea R1 Pro 轮式人形(固定底座+躯干、双 7-DoF 臂相对末端控制)+ 22-DoF Sharpa Wave 灵巧手;跨本体验证用 Unitree G1(7-DoF 三指手)。
- 模型架构(§2.3):flow-based VLA,近 GR00T N1;条件=图像+语言→视觉语言 embedding→flow-matching 出动作块;人类数据无本体感 → 用可学 placeholder token 统一;多本体用轻量 MLP adapter,共享 VL 骨干 + DiT 动作专家 + 相对腕运动预测。
- 算力/三阶段配方(§2.4):① 预训练 20K h / 100K 步 / 256× GB200 GPU / global batch 8,192 / LR 5e-5(全解冻);② mid-train 50K 步 / batch 2,048 / LR 3e-5(冻 VL 骨干,只更新视觉编码器+DiT);③ post-train 10K 步 / batch 512 / LR 3e-5。
- 一句话复现门槛:采集侧最少 3 相机(1 头+2 腕,OAK 系)+ Vive tracker + Manus 手套;预训练算力 = 工业级(256×GB200),非中小团队可及——只能复用权重/借配方。
🔎 证据与可信度¶
- 论文:arXiv 2602.16710 v1(2026-02-18)。NVIDIA + UC Berkeley + U Maryland;作者含 Ruijie Zheng、Dantong Niu、Yuke Zhu、Danfei Xu、Linxi Fan(与 卡片-T-Rex 高度重叠,同 GEAR 血脉)。✅ 摘要/方法/引言已读,⚠️ 实验表未逐一核。
- 模型:flow-based VLA = 预训练 VLM 骨干 + DiT 动作专家;人/机数据经 wrist-level 动作表示统一 + 轻量本体 adapter。
- 第三方复现:暂无。
- 证据等级:B(大团队 + scaling 证据 + 强结果;未开源、未逐表核、无外部复现)→ 权重:高(因它是 T-Rex 上游、方法论价值大)。
🧱 局限(🟡 未读到 Limitations 节,以下为据核心内容的推断,待验证)¶
- 依赖 off-the-shelf SLAM + 手 pose 估计,人类动作标注有噪声(作者承认,用规模抵消)。
- 全流程算力门槛极高,中小团队只能借思路/权重。
- 触觉缺席——EgoScale 纯视觉动作先验,触觉能力正是 卡片-T-Rex 在其上补的那一块。
💡 我的批注 / 判断¶
- 和 T-Rex 是"上下游"关系:EgoScale 给视觉动作先验(无触觉),T-Rex 在其 mid-training 阶段注入触觉专家。理解本库触觉×VLA 主线,这两张要连起来读。
- "验证 loss 预测下游性能"值得记为方法论:给了一个不用真机就能预判策略强弱的代理指标,对我们排优先级/判断别人工作的含金量有用。
- 数据战略启示:贵模态(机器人/触觉)放最省的阶段,便宜模态(人类视频)扛规模——与 T-Rex"触觉放 mid-training 不放预训练"同一思想,二者互为印证。可作为我们"人读文+AI 收集"之外的一条数据方法论。
来源编号¶
- [1] arXiv 2602.16710 v1(2026-02-18)· 项目页 NVIDIA GEAR · 本地
papers/EgoScale-ScalingDexterousEgocentricHumanData-2602.16710.pdf。节次标注(§2.3 模型/§2.4 训练/§2.5 机器人与感知/§3.1 任务/Fig6 结果/Fig9 机器人相机)均据全文一手核实(2026-07-03 补读)。