跳转至

EgoScale:把"人当成另一种可扩展本体",用规模换灵巧

📌 一句话省流:核心主张——人类到机器人的灵巧操作迁移,本质是个 scaling 问题。做法:在 20,854 小时动作标注的人类第一视角视频上预训练一个 flow-based VLA(比以往大 20×),发现手/腕动作预测的验证 loss 与数据量呈对数线性 scaling law,且该 loss 强相关于真机下游成功率;再用极少量对齐的人-机 mid-training 数据(50h 人 + 仅 4h 机器人)落地到机器人。最终比"无预训练"基线平均 +54%(22-DoF 灵巧手),并能单样本适应新任务、跨迁移到低自由度手。

🎬 项目页:NVIDIA GEAR / EgoScale

🧰 对我们(可用性速判)

  • 对我们的用处高(作为基础设施/血统理解)。它是 卡片-T-Rex预训练骨干——不懂 EgoScale 就没法真正理解 T-Rex 的"人类视频预训练→触觉 mid-training→任务 post-training"三段配方从何而来。其"验证 loss 可预测下游性能"是选模/投资的判断利器。
  • 真实性:NVIDIA GEAR 大团队、scaling law 证据体系完整 → 事实档 🔶(可信,暂无外部复现)。
  • 训练/微调资源极重。2 万小时视频预训练是工业级算力;但下游只需 ~4h 机器人数据是最大卖点(数据侧极省)。
  • 能借多少(开源):正文未核到代码公开;思路与数据配方可借,权重可能随 GEAR 生态放出。
  • 可用性结论当"方法论 + T-Rex 上游"来读。全流程复现不现实,但"人类视频当可扩展本体 + 少量对齐 mid-training"的范式可直接指导我们的数据战略。

亮点到底在哪(读核心后定位)

  • 亮点在"scaling law + 迁移配方"
  • Scaling law:手腕/手指动作预测验证 loss 随数据量对数线性下降,且与真机长程操作成功率强相关——把"多喂人类数据"变成可外推、可预测的监督源。
  • 两段迁移配方:大规模人类预训练(wrist 相对运动 + retarget 到 22-DoF Sharpa 手关节的显式动作监督)→ 轻量人-机对齐 mid-training(同相机配置、同视角),把表征接地到机器人传感/控制空间。
  • 涌现的单样本/少样本泛化:mid-training 后,1 条机器人演示即可让叠衬衫达 ~88%(尽管 mid-training 只含叠衣行为);跨迁到 Unitree G1 三指手仍 +30% 绝对提升
  • 关键设计:动作用相对腕部运动(对全局相机运动不变)+ retarget 高 DoF 手关节 → 人机共享动作抽象,是跨本体的关键。

关键数字(核心已核,[1])

  • 预训练数据:20,854h 人类第一视角(9,869 场景 / 6,015 任务 / 43,237 物体)+ 829h EgoDex(Apple Vision Pro 高精度腕手追踪)。均 30 FPS RGB。[1]
  • mid-training:344 桌面任务,每任务约 30 条人 + 5 条机器人轨迹 → ≈50h 人 + 仅 4h 机器人。[1]
  • 结果:22-DoF 手 +54% vs 无预训练;单样本叠衬衫 ~88%;跨到 G1 三指手 +30% 绝对。[1]
  • 采集栈(mid-training):Vive tracker(腕 6D)+ Manus 手套(25 关节手内 pose)+ 1 头相机 + 2 腕相机,与机器人同配置。[1]

🔎 证据与可信度

  • 论文arXiv 2602.16710 v1(2026-02-18)。NVIDIA + UC Berkeley + U Maryland;作者含 Ruijie Zheng、Dantong Niu、Yuke Zhu、Danfei Xu、Linxi Fan(与 卡片-T-Rex 高度重叠,同 GEAR 血脉)。✅ 摘要/方法/引言已读,⚠️ 实验表未逐一核。
  • 模型:flow-based VLA = 预训练 VLM 骨干 + DiT 动作专家;人/机数据经 wrist-level 动作表示统一 + 轻量本体 adapter。
  • 第三方复现:暂无。
  • 证据等级:B(大团队 + scaling 证据 + 强结果;未开源、未逐表核、无外部复现)→ 权重:高(因它是 T-Rex 上游、方法论价值大)。

🧱 局限(🟡 未读到 Limitations 节,以下为据核心内容的推断,待验证)

  • 依赖 off-the-shelf SLAM + 手 pose 估计,人类动作标注有噪声(作者承认,用规模抵消)。
  • 全流程算力门槛极高,中小团队只能借思路/权重。
  • 触觉缺席——EgoScale 纯视觉动作先验,触觉能力正是 卡片-T-Rex 在其上补的那一块

💡 我的批注 / 判断

  • 和 T-Rex 是"上下游"关系:EgoScale 给视觉动作先验(无触觉),T-Rex 在其 mid-training 阶段注入触觉专家。理解本库触觉×VLA 主线,这两张要连起来读。
  • "验证 loss 预测下游性能"值得记为方法论:给了一个不用真机就能预判策略强弱的代理指标,对我们排优先级/判断别人工作的含金量有用。
  • 数据战略启示贵模态(机器人/触觉)放最省的阶段,便宜模态(人类视频)扛规模——与 T-Rex"触觉放 mid-training 不放预训练"同一思想,二者互为印证。可作为我们"人读文+AI 收集"之外的一条数据方法论。

来源编号