概念 · 机器人数据与标注(VLA 的头号瓶颈)¶
数据是当前机器人/VLA 公认的最大瓶颈(VLA 论文 ~5×/年增长,卡的就是数据)。这页梳理:数据从哪来、怎么标、以及我们的库怎么也算一种"数据标注"。
一、数据从哪来(大规模数据集)¶
| 数据集 | 规模 | 备注 |
|---|---|---|
| Open X-Embodiment | 2.4M 轨迹、22 种本体 | 把各家数据并成统一格式 ✅2310.08864 |
| DROID | 76k 轨迹/350h、564 场景 | in-the-wild ✅2403.12945 (RSS24) |
| AgiBot World | 1M+ 双臂轨迹、217 任务 | 统一本体+严格质检 ✅2503.06669 |
| RoboMIND | 55k 轨迹+10k 语言标注、279 任务 | 多本体多场景 (ID待核) |
| > 触觉侧数据集见 卡片-T3(FoTa 300万)、卡片-AnyTouch(TacQuad)、卡片-TVL(44K)。 |
二、怎么标(标注/省标注的几条路)¶
- 遥操作采集:人遥控机器人采"对齐好的"演示(最直接、最贵)。硬件见 卡片-MobileALOHA、UMI(卡片-Tactile-VLA 用)。
- VLM 自动/伪标注:用大模型给数据打语言标签/中间表示,人只标少量。代表:卡片-TVL(10%人工+90%GPT-4V 伪标);PEEK(2509.18282,VLM 预测抓取路径点);RoboInter-Data(230k 集中间表示, ID待核)。趋势:用 VLM 当 critic 过滤自己的输出。
- 免动作标签(从视频学):⭐ 卡片-LAPA(2410.11758)—— 从无动作标签的视频学"潜动作",绕开真机动作标注;ConLA(2602.00557) 又超它 +12.5%。
- 仿真补数据:见 基准-SimplerEnv / TacSL / Tac2Real(仿真生成接触/触觉数据)。
三、🔗 我们的库 = 一种"数据标注"(meta,重要)¶
- 我们每条批注 / 老板转发 / 相关度判断都带"来源 + 时间 + 判断"——这就是一条带标签的数据。
- 老板转发尤其是高价值标注(业务锚点)。这些攒起来 = 检索/research-agent 评测的语料(呼应 vault
projects/机器人情报雷达.md的"评测"目的)。 - 落地:临时捕获走根目录
inbox.md(带来源/日期/标签);定期 triage 成卡。捕获即标注。
待补(占位)¶
- [ ] 核 RoboMIND / RoboInter 的 arXiv 号;补 DROID/OXE 数据集卡。
- [ ] "数据飞轮 / 自动标注管道"单独成卡。