跳转至

机器人知识库

EgoScale：2万小时人类第一视角视频，把"灵巧操作"做成可预测的 scaling law

EgoScale：把"人当成另一种可扩展本体"，用规模换灵巧¶

📌 一句话省流：核心主张——人类到机器人的灵巧操作迁移，本质是个 scaling 问题。做法：在 20,854 小时动作标注的人类第一视角视频上预训练一个 flow-based VLA（比以往大 20×），发现手/腕动作预测的验证 loss 与数据量呈对数线性 scaling law，且该 loss 强相关于真机下游成功率；再用极少量对齐的人-机 mid-training 数据（50h 人 + 仅 4h 机器人）落地到机器人。最终比"无预训练"基线平均 +54%（22-DoF 灵巧手），并能单样本适应新任务、跨迁移到低自由度手。

🎬 项目页：NVIDIA GEAR / EgoScale

🧰 对我们（可用性速判）¶

对我们的用处：高（作为基础设施/血统理解）。它是卡片-T-Rex 的预训练骨干——不懂 EgoScale 就没法真正理解 T-Rex 的"人类视频预训练→触觉 mid-training→任务 post-training"三段配方从何而来。其"验证 loss 可预测下游性能"是选模/投资的判断利器。
真实性：NVIDIA GEAR 大团队、scaling law 证据体系完整 → 事实档 🔶（可信，暂无外部复现）。
训练/微调资源：极重。2 万小时视频预训练是工业级算力；但下游只需 ~4h 机器人数据是最大卖点（数据侧极省）。
能借多少（开源）：正文未核到代码公开；思路与数据配方可借，权重可能随 GEAR 生态放出。
可用性结论：当"方法论 + T-Rex 上游"来读。全流程复现不现实，但"人类视频当可扩展本体 + 少量对齐 mid-training"的范式可直接指导我们的数据战略。

亮点到底在哪（读核心后定位）¶

亮点在"scaling law + 迁移配方"：
Scaling law：手腕/手指动作预测验证 loss 随数据量对数线性下降，且与真机长程操作成功率强相关——把"多喂人类数据"变成可外推、可预测的监督源。
两段迁移配方：大规模人类预训练（wrist 相对运动 + retarget 到 22-DoF Sharpa 手关节的显式动作监督）→ 轻量人-机对齐 mid-training（同相机配置、同视角），把表征接地到机器人传感/控制空间。
涌现的单样本/少样本泛化：mid-training 后，1 条机器人演示即可让叠衬衫达 ~88%（尽管 mid-training 只含叠衣行为）；跨迁到 Unitree G1 三指手仍 +30% 绝对提升。
关键设计：动作用相对腕部运动（对全局相机运动不变）+ retarget 高 DoF 手关节 → 人机共享动作抽象，是跨本体的关键。

关键数字（核心已核，[1]）¶

预训练数据：20,854h 人类第一视角（9,869 场景 / 6,015 任务 / 43,237 物体）+ 829h EgoDex（Apple Vision Pro 高精度腕手追踪）。均 30 FPS RGB。[1]
mid-training：344 桌面任务，每任务约 30 条人 + 5 条机器人轨迹 → ≈50h 人 + 仅 4h 机器人。[1]
结果：22-DoF 手 +54% vs 无预训练；单样本叠衬衫 ~88%；跨到 G1 三指手 +30% 绝对。[1]
采集栈（mid-training）：Vive tracker（腕 6D）+ Manus 手套（25 关节手内 pose）+ 1 头相机 + 2 腕相机，与机器人同配置。[1]

🔎 证据与可信度¶

论文：arXiv 2602.16710 v1（2026-02-18）。NVIDIA + UC Berkeley + U Maryland；作者含 Ruijie Zheng、Dantong Niu、Yuke Zhu、Danfei Xu、Linxi Fan（与卡片-T-Rex 高度重叠，同 GEAR 血脉）。✅ 摘要/方法/引言已读，⚠️ 实验表未逐一核。
模型：flow-based VLA = 预训练 VLM 骨干 + DiT 动作专家；人/机数据经 wrist-level 动作表示统一 + 轻量本体 adapter。
第三方复现：暂无。
证据等级：B（大团队 + scaling 证据 + 强结果；未开源、未逐表核、无外部复现）→ 权重：高（因它是 T-Rex 上游、方法论价值大）。

🧱 局限（🟡 未读到 Limitations 节，以下为据核心内容的推断，待验证）¶

依赖 off-the-shelf SLAM + 手 pose 估计，人类动作标注有噪声（作者承认，用规模抵消）。
全流程算力门槛极高，中小团队只能借思路/权重。
触觉缺席——EgoScale 纯视觉动作先验，触觉能力正是卡片-T-Rex 在其上补的那一块。

💡 我的批注 / 判断¶

和 T-Rex 是"上下游"关系：EgoScale 给视觉动作先验（无触觉），T-Rex 在其 mid-training 阶段注入触觉专家。理解本库触觉×VLA 主线，这两张要连起来读。
"验证 loss 预测下游性能"值得记为方法论：给了一个不用真机就能预判策略强弱的代理指标，对我们排优先级/判断别人工作的含金量有用。
数据战略启示：贵模态（机器人/触觉）放最省的阶段，便宜模态（人类视频）扛规模——与 T-Rex"触觉放 mid-training 不放预训练"同一思想，二者互为印证。可作为我们"人读文+AI 收集"之外的一条数据方法论。

来源编号¶

[1] arXiv 2602.16710 v1（2026-02-18）· 项目页 NVIDIA GEAR · 本地 papers/EgoScale-ScalingDexterousEgocentricHumanData-2602.16710.pdf（核心精读 2026-07-02，未逐实验表）