跳转至

概念 · 机器人数据与标注(VLA 的头号瓶颈)

数据是当前机器人/VLA 公认的最大瓶颈(VLA 论文 ~5×/年增长,卡的就是数据)。这页梳理:数据从哪来、怎么标、以及我们的库怎么也算一种"数据标注"

一、数据从哪来(大规模数据集)

数据集 规模 备注
Open X-Embodiment 2.4M 轨迹、22 种本体 把各家数据并成统一格式 ✅2310.08864
DROID 76k 轨迹/350h、564 场景 in-the-wild ✅2403.12945 (RSS24)
AgiBot World 1M+ 双臂轨迹、217 任务 统一本体+严格质检 ✅2503.06669
RoboMIND 55k 轨迹+10k 语言标注、279 任务 多本体多场景 (ID待核)
> 触觉侧数据集见 卡片-T3(FoTa 300万)、卡片-AnyTouch(TacQuad)、卡片-TVL(44K)。

二、怎么标(标注/省标注的几条路)

  1. 遥操作采集:人遥控机器人采"对齐好的"演示(最直接、最贵)。硬件见 卡片-MobileALOHA、UMI(卡片-Tactile-VLA 用)。
  2. VLM 自动/伪标注:用大模型给数据打语言标签/中间表示,人只标少量。代表:卡片-TVL(10%人工+90%GPT-4V 伪标);PEEK(2509.18282,VLM 预测抓取路径点);RoboInter-Data(230k 集中间表示, ID待核)。趋势:用 VLM 当 critic 过滤自己的输出
  3. 免动作标签(从视频学):⭐ 卡片-LAPA2410.11758)—— 从无动作标签的视频学"潜动作",绕开真机动作标注;ConLA(2602.00557) 又超它 +12.5%。
  4. 仿真补数据:见 基准-SimplerEnv / TacSL / Tac2Real(仿真生成接触/触觉数据)。

三、🔗 我们的库 = 一种"数据标注"(meta,重要)

  • 我们每条批注 / 老板转发 / 相关度判断都带"来源 + 时间 + 判断"——这就是一条带标签的数据
  • 老板转发尤其是高价值标注(业务锚点)。这些攒起来 = 检索/research-agent 评测的语料(呼应 vault projects/机器人情报雷达.md 的"评测"目的)。
  • 落地:临时捕获走根目录 inbox.md(带来源/日期/标签);定期 triage 成卡。捕获即标注。

待补(占位)

  • [ ] 核 RoboMIND / RoboInter 的 arXiv 号;补 DROID/OXE 数据集卡。
  • [ ] "数据飞轮 / 自动标注管道"单独成卡。