机器人智能 · 总框架(这个库在整个体系里的位置)¶
判断来源:🤖Claude 专业分析(边界在演进,待人复核)。目的:给一个能照着搭的准确框架,并定位触觉 / VLA 在哪一层。
一、先回答一个关键问题:VLA 端到端了,还分大脑/小脑吗?¶
- VLA 是端到端,但只到"动作块",不是到电机力矩:它输出 ~几Hz–几十Hz 的动作块/末端目标,下面仍需高频(100Hz–1kHz)实时控制器去跟踪、做力控/平衡/防摔。
- VLA 合并的是"感知融合+高层规划"(经典好几个手写模块→一个学习模型),没合并"实时控制"。
- 为什么必须分两层 = 频率/物理:大模型跑不到 kHz;力控/平衡/合规接触必须 kHz 闭环。所以"大脑(慢·学习)/小脑(快·控制)"分界依然成立(业界 humanoid 普遍用此双系统)。
二、分层依据(怎么分才专业)¶
- 时间尺度/频率:Hz–几十Hz(大脑) vs 100Hz–1kHz(小脑)——最硬的分界。
- 学习 vs 工程:大脑多学习型(VLA/世界模型);小脑多控制理论/RL,要可验证、安全。
- 抽象层级:语义/任务(大脑) vs 力/关节/平衡(小脑)。
三、准确框架(可据此搭建)¶
flowchart TB
subgraph BRAIN["大脑 · 高层策略 (~1-30Hz, 学习型)"]
PER["感知/表征<br/>视觉·触觉·状态估计"] --> POL["VLA / 世界模型<br/>理解·规划·决策 → 动作块"]
end
subgraph CB["小脑 · 实时控制 (~100Hz-1kHz, 控制/RL)"]
CTRL["力控/阻抗 · 全身控制(WBC) · 平衡 · 安全"]
end
POL -->|"动作块 / 末端目标"| CTRL
CTRL -->|"关节力矩"| HW["本体 · 硬件<br/>臂/手/腿 · 电机 · 传感器"]
HW -->|"视觉/触觉/力/IMU"| PER
DATA["学习基础: 仿真 · 数据集 · 表征预训练"] -.->|支撑| POL
classDef hi fill:#e6f4ea,stroke:#0a9d6e,color:#123;
class BRAIN hi;
读法:感知/表征 → 大脑(VLA/世界模型)出动作块 →(接口)→ 小脑实时控制器出力矩 → 本体 → 传感器闭环;仿真/数据在底下支撑大脑训练。大脑↔小脑的"动作块接口"就是两层的分界。
🔁 动态视图(各环频率怎么转 + 端到端替掉了经典哪一段)见 控制回路与频率-动态视图。上图是"静态有哪些模块",那页是"动态怎么循环"。
四、触觉 / 触觉×VLA 在哪一层¶
| 东西 | 层 | 作用 |
|---|---|---|
| 触觉 | 感知模态 → 表征 | 机器人最弱的感知;大脑(决策)和小脑(力控)都会用 |
| VLA | 大脑·高层策略 | 把(视觉+语言+触觉…)→动作块 |
| 世界模型 | 大脑 | 在大脑里"预判未来"再决策 |
| 门控/力控 | 小脑 | 实时"该不该信触觉"、合规接触 |
"触觉×VLA" = 把触觉接进大脑策略(VLA):让大脑决策能用上触觉这个模态;其中"预判未来"在大脑(世界模型)、"实时门控/力控"落小脑。它不新增层,是补一条"最弱感知 → 大脑决策"的接口。
五、放大看:我们这条线(触觉×VLA)内部体系¶
flowchart BT
A["支撑: 传感器/仿真/数据"] --> B["表征(地基): T3·AnyTouch·TVL"]
B --> C["世界模型: LaWAM·TacForeSight·VT-WM·OmniVTA"]
C --> D["VLA融合: VLA-Touch·Tactile-VLA·TacVLA"]
D --> E["接触操作"]
- 详见 综述-触觉与VLA路线总览(5 条路线)、全景图-触觉VLA体系、触觉×机器人-文献地图与阅读方案。
- 卡片在左侧按层分组,每张含"对我们能不能用"速判 + 项目页/PDF 链接。
六、其它层 / 分支(占位,后续按需补 1–2 篇代表作)¶
- 大脑:纯视觉 VLA(RT-2/OpenVLA/π0/GR00T)、任务规划、记忆。
- 小脑:力控/阻抗、全身控制(WBC)、双足平衡、移动导航。
- 感知:视觉 SLAM/3D、听觉。
- 本体/基础:灵巧手硬件、仿真 Sim2Real、数据集、表征预训练。
边界在演进:趋势是大脑模型吸收更多(甚至部分高频化),但小脑(实时控制)因物理/安全长期独立。