EgoScale：把"人当成另一种可扩展本体"，用规模换灵巧¶

📌 一句话省流：核心主张——人类到机器人的灵巧操作迁移，本质是个 scaling 问题。做法：在 20,854 小时动作标注的人类第一视角视频上预训练一个 flow-based VLA（比以往大 20×），发现手/腕动作预测的验证 loss 与数据量呈对数线性 scaling law，且该 loss 强相关于真机下游成功率；再用极少量对齐的人-机 mid-training 数据（50h 人 + 仅 4h 机器人）落地到机器人。最终比"无预训练"基线平均 +54%（22-DoF 灵巧手），并能单样本适应新任务、跨迁移到低自由度手。

🎬 项目页：NVIDIA GEAR / EgoScale 🔬 全文精读（逐模块方法 + 全量数字 + 采集硬件 + 审稿视角）：详读-EgoScale

🧰 对我们（可用性速判）¶

对我们的用处：高（作为基础设施/血统理解）。它是卡片-T-Rex 的预训练骨干——不懂 EgoScale 就没法真正理解 T-Rex 的"人类视频预训练→触觉 mid-training→任务 post-training"三段配方从何而来。其"验证 loss 可预测下游性能"是选模/投资的判断利器。
真实性：NVIDIA GEAR 大团队、scaling law 证据体系完整 → 事实档 🔶（可信，暂无外部复现）。
训练/微调资源：极重。2 万小时视频预训练是工业级算力；但下游只需 ~4h 机器人数据是最大卖点（数据侧极省）。
能借多少（开源）：正文未核到代码公开；思路与数据配方可借，权重可能随 GEAR 生态放出。
可用性结论：当"方法论 + T-Rex 上游"来读。全流程复现不现实，但"人类视频当可扩展本体 + 少量对齐 mid-training"的范式可直接指导我们的数据战略。

亮点到底在哪（读核心后定位）¶

亮点在"scaling law + 迁移配方"：
Scaling law：手腕/手指动作预测验证 loss 随数据量对数线性下降，且与真机长程操作成功率强相关——把"多喂人类数据"变成可外推、可预测的监督源。
两段迁移配方：大规模人类预训练（wrist 相对运动 + retarget 到 22-DoF Sharpa 手关节的显式动作监督）→ 轻量人-机对齐 mid-training（同相机配置、同视角），把表征接地到机器人传感/控制空间。
涌现的单样本/少样本泛化：mid-training 后，1 条机器人演示即可让叠衬衫达 ~88%（尽管 mid-training 只含叠衣行为）；跨迁到 Unitree G1 三指手仍 +30% 绝对提升。
关键设计：动作用相对腕部运动（对全局相机运动不变）+ retarget 高 DoF 手关节 → 人机共享动作抽象，是跨本体的关键。

关键数字（一手核实，标节次·出处见[1]）¶

预训练数据 20,854h（摘要/§2.2）人类第一视角：in-the-wild（9,869 场景 / 6,015 任务 / 43,237 物体）+ 829h EgoDex（Apple Vision Pro 高精度腕手追踪）。均 30 FPS RGB（§2.2）。
⚠️ 跨源数字矛盾：卡片-T-Rex/详读-T-Rex 引用 EgoScale 为 22,889h，与 EgoScale 原文自陈 20,854h 不一致。→ 以 EgoScale 原文 20,854h 为准；T-Rex 那处口径待核（差约 2,035h，非 EgoDex 的 829h，来源不明）。
mid-training（§2.2）：344 桌面任务，每任务约 30 条人 + 5 条机器人轨迹 → ≈50h 人 + 仅 4h 机器人。
结果（摘要/§3）：22-DoF 手 +54% vs 无预训练；单样本叠衬衫 0.88（Pretrain+Midtrain，§3 Fig6）；跨迁 Unitree G1 三指手 +30% 绝对（两任务）。
Scaling law（§3）：手/腕动作预测验证 loss vs 数据量近乎完美对数线性，R²=0.9983；该 loss 强相关真机成功率。
评测任务（§3.1）：5 个灵巧任务 = 卷衬衫 / 分卡插槽 / 夹子夹水果 / 拧瓶盖(4 瓶×25) / 注射器；每任务 100 演示（卷衬衫仅 20）。
动作表示消融（§正文）：retarget 22-DoF 手关节 > wrist-only > fingertip-based(SE3) —— 动作表示强影响性能，手指级监督是关键（wrist-only 明显掉分）。

🧪 复现硬件与算力（一手核实 §2.3–2.5 / Fig9；[1]）¶

相机 = 3 个 RGB（§2.5）：1 头戴（第一视角，与人类视频一致）+ 2 腕部（装每只手腕内侧、朝手掌，拍近距手-物交互，供精细操作视觉反馈）。型号：头 OAK-D-Wide、腕 2× OAK-1-Wide（Fig9）。全 30 FPS。
人采数据额外设备（§2.2）：Vive tracker（腕 6D 位姿）+ Manus 手套（手内 25 关节）；与机器人同相机配置以便人机对齐。EgoDex 那部分改用 Apple Vision Pro 采（腕手追踪更准）。
机器人平台（§2.5）：主平台 Galaxea R1 Pro 轮式人形（固定底座+躯干、双 7-DoF 臂相对末端控制）+ 22-DoF Sharpa Wave 灵巧手；跨本体验证用 Unitree G1（7-DoF 三指手）。
模型架构（§2.3）：flow-based VLA，近 GR00T N1；条件=图像+语言→视觉语言 embedding→flow-matching 出动作块；人类数据无本体感 → 用可学 placeholder token 统一；多本体用轻量 MLP adapter，共享 VL 骨干 + DiT 动作专家 + 相对腕运动预测。
算力/三阶段配方（§2.4）：① 预训练 20K h / 100K 步 / 256× GB200 GPU / global batch 8,192 / LR 5e-5（全解冻）；② mid-train 50K 步 / batch 2,048 / LR 3e-5（冻 VL 骨干，只更新视觉编码器+DiT）；③ post-train 10K 步 / batch 512 / LR 3e-5。
一句话复现门槛：采集侧最少 3 相机（1 头+2 腕，OAK 系）+ Vive tracker + Manus 手套；预训练算力 = 工业级（256×GB200），非中小团队可及——只能复用权重/借配方。

🔎 证据与可信度¶

论文：arXiv 2602.16710 v1（2026-02-18）。NVIDIA + UC Berkeley + U Maryland；作者含 Ruijie Zheng、Dantong Niu、Yuke Zhu、Danfei Xu、Linxi Fan（与卡片-T-Rex 高度重叠，同 GEAR 血脉）。✅ 摘要/方法/引言已读，⚠️ 实验表未逐一核。
模型：flow-based VLA = 预训练 VLM 骨干 + DiT 动作专家；人/机数据经 wrist-level 动作表示统一 + 轻量本体 adapter。
第三方复现：暂无。
证据等级：B（大团队 + scaling 证据 + 强结果；未开源、未逐表核、无外部复现）→ 权重：高（因它是 T-Rex 上游、方法论价值大）。

🧱 局限（🟡 未读到 Limitations 节，以下为据核心内容的推断，待验证）¶

依赖 off-the-shelf SLAM + 手 pose 估计，人类动作标注有噪声（作者承认，用规模抵消）。
全流程算力门槛极高，中小团队只能借思路/权重。
触觉缺席——EgoScale 纯视觉动作先验，触觉能力正是卡片-T-Rex 在其上补的那一块。

💡 我的批注 / 判断¶

和 T-Rex 是"上下游"关系：EgoScale 给视觉动作先验（无触觉），T-Rex 在其 mid-training 阶段注入触觉专家。理解本库触觉×VLA 主线，这两张要连起来读。
"验证 loss 预测下游性能"值得记为方法论：给了一个不用真机就能预判策略强弱的代理指标，对我们排优先级/判断别人工作的含金量有用。
数据战略启示：贵模态（机器人/触觉）放最省的阶段，便宜模态（人类视频）扛规模——与 T-Rex"触觉放 mid-training 不放预训练"同一思想，二者互为印证。可作为我们"人读文+AI 收集"之外的一条数据方法论。

来源编号¶

[1] arXiv 2602.16710 v1（2026-02-18）· 项目页 NVIDIA GEAR · 本地 papers/EgoScale-ScalingDexterousEgocentricHumanData-2602.16710.pdf。节次标注（§2.3 模型/§2.4 训练/§2.5 机器人与感知/§3.1 任务/Fig6 结果/Fig9 机器人相机）均据全文一手核实（2026-07-03 补读）。