概念 · 机器人数据与标注（VLA 的头号瓶颈）¶

数据是当前机器人/VLA 公认的最大瓶颈（VLA 论文 ~5×/年增长，卡的就是数据）。这页梳理：数据从哪来、怎么标、以及我们的库怎么也算一种"数据标注"。

一、数据从哪来（大规模数据集）¶

数据集	规模	备注
Open X-Embodiment	2.4M 轨迹、22 种本体	把各家数据并成统一格式 ✅2310.08864
DROID	76k 轨迹/350h、564 场景	in-the-wild ✅2403.12945 (RSS24)
AgiBot World	1M+ 双臂轨迹、217 任务	统一本体+严格质检 ✅2503.06669
RoboMIND	55k 轨迹+10k 语言标注、279 任务	多本体多场景 (ID待核)
> 触觉侧数据集见卡片-T3(FoTa 300万)、卡片-AnyTouch(TacQuad)、卡片-TVL(44K)。

遥操作采集：人遥控机器人采"对齐好的"演示（最直接、最贵）。硬件见卡片-MobileALOHA、UMI(卡片-Tactile-VLA 用)。
VLM 自动/伪标注：用大模型给数据打语言标签/中间表示，人只标少量。代表：卡片-TVL（10%人工+90%GPT-4V 伪标）；PEEK(2509.18282，VLM 预测抓取路径点)；RoboInter-Data(230k 集中间表示, ID待核)。趋势：用 VLM 当 critic 过滤自己的输出。
免动作标签（从视频学）：⭐ 卡片-LAPA（2410.11758）—— 从无动作标签的视频学"潜动作"，绕开真机动作标注；ConLA(2602.00557) 又超它 +12.5%。
仿真补数据：见基准-SimplerEnv / TacSL / Tac2Real（仿真生成接触/触觉数据）。

我们每条批注 / 老板转发 / 相关度判断都带"来源 + 时间 + 判断"——这就是一条带标签的数据。
老板转发尤其是高价值标注（业务锚点）。这些攒起来 = 检索/research-agent 评测的语料（呼应 vault projects/机器人情报雷达.md 的"评测"目的）。
落地：临时捕获走根目录 inbox.md(带来源/日期/标签)；定期 triage 成卡。捕获即标注。