具身智能
让机器拥有物理身体,在真实世界中感知、决策、行动,是 AI 算法从数字空间延伸到物理世界的核心课题。
这个方向在研究什么
最强的 AI 能考过律师资格、写出能跑的代码、下赢人类围棋冠军,可它拿不起桌上那个杯子,也走不稳一段不平的路。人类幼崽一岁就能做到的事,对于 AI 来说难如登天。这便是 Moravec 悖论。具身智能(Embodied Intelligence)研究的,就是把 AI 从赛博空间接生到现实世界,让它从纸上谈兵进化到能身体力行。其中的关键在于,如何让 AI 拥有一个能在真实物理世界里感知、决策、行动的身体。
目前横亘在机器人商业落地面前的有三大难关。第一关是操作。让机器人把一个没见过的杯子拿起来放进洗碗机,人不假思索就做了,机器却要同时解决一大堆问题。它得先认出杯子,而杯子的形状、颜色、被挡住多少都可能不一样。还得估出杯子在空间里的朝向,再规划一条手臂轨迹绕开桌上别的东西。抓的时候每根手指要用恰好的力,太轻松手、太重捏碎。放进洗碗机时又得应付开门、搁架高低这些新情况。任何一环出错,整件事就崩,而人是把这些并行、无缝地一气做完的。第二关是运动。双足走路、在不平的地上保持平衡,看着轻巧,机器人却摔了几十年,人形和足式机器人至今还在为站稳、跑起来较劲。第三关是导航,走进一个陌生房间,要一边认路、一边随时知道自己在哪。这三样都是小孩的本能,可它们有一个共同的麻烦,那就是没法从网上学来。没人把"怎么用恰好的力气捏住杯子""打滑的瞬间怎么调整重心"写成文字,这类知识没有文字记录,只能在大量真实动作尝试中积累。
难归难,这两年 LLM 的爆发让机器人的大脑迎来了一波升级。一些具身智能研究者直接把那些在互联网上训练出来的大模型,直接搬到机器人的决策上。2023 年 Google DeepMind 的 RT-2 就是这么干的,它把一个视觉-语言大模型直接当成机器人的“大脑”,输入是摄像头看到的画面加上一句指令,输出直接就是机械臂的动作。因为这个大模型在海量网络数据里见过世界,它能听懂训练时从没出现过的指令。你让它“把可乐罐放到和可口可乐 logo 同颜色的方块上”,它能自己推断出那是红色,再去做。这种举一反三的本领,是过去任何机器人都没有的。
可问题在于,捏杯子的力度、走路的平衡,这种身体功夫在互联网上依然没有现成答案,LLM 也不懂。机器只能一次次真实地试、从结果里学。麻烦是真实的尝试又慢又贵,于是研究者凑出了三条攒经验的路。第一条路是真人遥控,让人手把手地遥控机器人,把一个个动作示范给它看,π0 这类模型就靠海量的人类示范学会了叠衣服、装洗碗机,代价是请人示范极费工夫。第二条路是仿真,在虚拟环境里让成千上万个机器人并行练习,又快又便宜,人形机器人的跑、跳、平衡几乎都是这么练出来的。但仿真里的物理和真实世界总对不上,这道仿真到现实的鸿沟(Sim-to-Real)让练好的技能一搬到真机就常常失灵。
第三条路最诱人也最难,就是让机器人自己在真实世界里边做边学,熟能生巧,也就是在线学习。可是真机试错又慢、又有风险、还特别费样本,机器人摔一次可能就摔坏了。而且光有数据还不够,把新经验真正更新进模型的权重,本身也是一道坎。神经网络有个老毛病叫灾难性遗忘(catastrophic forgetting),一学新动作,旧本事常常被覆盖、忘掉;在线更新又不像离线那样能先测好再上线,一次坏的更新就可能让机器人当场变笨、甚至闯祸,事后还很难撤回。把这条路走通,再让机器人在部署之后还能持续学、自己纠错、适应没见过的新环境,就能把"攒经验"从一次性的训练变成一辈子的本事。说到底,如何以可承受的成本积累足够的物理交互数据,是这个方向最核心的瓶颈之一。
再往前看,还有人想给机器人配上一种“想象力”,让它在脑子里建起一个物理世界的模型,真动手之前先预演一下“推这一下会怎样、松了手会不会倒”,这就是当下很热的世界模型和空间智能。具身智能整体还是个剧烈变形中的早期方向,视觉-语言-动作模型会长成什么样、眼下都没有定论。可也正因为没定型,真正的开放问题特别多,早期进入有较大的方向选择空间。
此外,机器人不能每动一下都去问云端,延迟太高,断了网就瘫,所以模型必须在机器人身上就地运行。可机器人是电池供电的,留给芯片的功耗和散热预算往往只有十几瓦,决策却得在几十毫秒内出结果。把一个几十亿参数的视觉-语言-动作模型(Vision-Language-Action, VLA)塞进这么小的预算里实时跑,逼出了一类专门的具身芯片研究。一头是边缘 AI 推理的专用加速器和模型压缩,一头是把感知、决策和微秒级电机力矩控制集成进一颗机器人 SoC,还要给触觉、视觉这些传感器配上高密度的读出前端。功耗、散热、延迟这三堵墙,正好把芯片架构和能效推到了最前线。
核心研究问题
- 灵巧操作与触觉力闭环:抓取、手内操作、装配形状各异的物体,要靠触觉和力控在抓握力过轻(滑落)与过重(损坏)之间实时闭环调节。
- 足式与人形全身控制:走、跑、跳、被推还能站稳,要在几十个关节上实时协调动力学,学习方法和经典控制怎么结合,各家做法不一。
- 视觉-语言-动作模型:基础大模型能把世界知识迁到动作上,可每项灵巧操作仍要海量真人示范,泛化到底卡在数据还是卡在身体,没有定论。
- 训练经验的来源:真机示范贵,仿真有 Sim-to-Real 鸿沟,真实世界强化学习又慢又险还会灾难性遗忘,三条路各有代价。
- 端侧实时推理:要在十几瓦的功耗预算里、几十毫秒内跑通几十亿参数的 VLA 模型,对芯片架构和能效是直接的考验。
知识路径
IC 背景的人从硬件线(数字设计→嵌入式→加速器)切入,算法背景的人走算法线(数学三件套→机器学习→强化学习/大模型),控制线(大学物理的力学 + 信号处理→控制与机器人)是机器人独有的一支,三条线在系统层汇合。节点都是学习地图里的目录:
graph LR
AN[分析] --> PROB[概率与统计]
DS[代数] --> PROB
PROB --> ML[机器学习]
DS[代数] --> ML
PY[编程入门] --> ML
ML --> DL[深度学习]
DL --> RL[强化学习]
DL --> LLM[大语言模型]
RL --> E[具身智能]
LLM --> E
PHY[大学物理] --> CTRL[控制与机器人]
AN --> SIG[信号处理]
SIG --> CTRL
CTRL --> E
DIG[数字设计] --> SOC[嵌入式SoC]
SIG --> SOC
SOC --> E
ARCH[体系结构] --> ACC[AI加速器]
DL --> ACC
ACC --> E
classDef math fill:#EBF4FF,stroke:#2C5282
classDef hw fill:#FFFBEB,stroke:#B7791F
classDef sw fill:#F0FDF4,stroke:#16A34A
classDef goal fill:#F1F5F9,stroke:#64748B,stroke-width:2px
class AN,DS,PROB,PY math
class PHY,DIG,SIG,SOC,CTRL,ACC,ARCH hw
class ML,DL,RL,LLM sw
class E goal
- 数学:分析 · 代数(线性代数) · 概率与统计
- 算法编程:编程入门(Python)
- 人工智能:机器学习 · 深度学习 · 强化学习 · 大语言模型
- 物理:大学物理(力学是运动学/动力学的基础)
- 电路:信号处理 · 数字设计 · 嵌入式SoC · 控制与机器人(待建)
- 系统架构:体系结构 · AI加速器
想做硬件视角(边缘 AI 芯片、机器人 SoC、传感器 IC、TinyML/SNN)与完整全栈学习(VLA / SLAM / 控制 / 仿真),请见 专题社区 中收录的 Embodied-AI-Guide。
这个方向适合谁
这个方向的日常一半在仿真里训练,一半在真机上调试。机器人会摔、会坏、练好的技能搬到现实常常失灵,得受得了跟硬件打交道的繁琐工程,同时要求一定的体能,价值几十万的机器人摔倒是常事。核心圈是机器人加机器学习,想进迟早要补机器人学和强化学习;微电子出身的切口在硬件侧,传感器读出、边缘推理、机器人 SoC,在十几瓦功耗预算内完成大模型的实时推理,是实际的工程挑战。整个领域还在剧烈变形,技术路线没有定型,适合喜欢开辟新方向、能忍受不确定性的人。
学术界
课题组
境内
-
刘华平 清华
多模态机器人感知 | 跨模态持续学习 | 交互式控制
-
孙富春 清华
机器人灵巧操作 | 主动感知 | 虚实迁移强化学习
-
高阳 清华
具身智能与 AI 智能体 | 大模型引导导航与操作 | 视觉-语言-动作模型
-
许华哲 清华
强化学习 | 感觉运动控制 | 触觉感知
-
陈建宇 清华
强化学习 | 足式机器人控制 | 安全约束优化
-
李响 清华
灵巧操作 | 手内操作 | 人机协作外骨骼
-
赵行 清华
多模态机器学习 | 机器人/人形跑酷学习 | 自动驾驶视觉
-
苏昊 复旦
机器人灵巧操作 | 仿真基准 ManiSkill | 视觉语言动作模型
-
陈涛 复旦
3D 场景理解 | 具身多模态大模型 | 嵌入式 AI 推理
-
甘中学 复旦
多智能体协同控制 | 视觉强化学习 | 自主无人系统
-
徐鉴 复旦
仿生软体驱动 | 外骨骼与假肢 | 非线性时滞控制
-
张文强 复旦
机器人视觉感知 | 知识图谱推理 | 柔性手术机器人
-
张立华 复旦
强化学习机器人控制 | 多模态行为感知 | 数字孪生仿真
-
朱毅鑫 北大
触觉感知 | 人形机器人 | 物理推理与具身 AI
-
董浩 北大
具身 AI 缩放律 | 大模型 + 强化学习 | 操作与导航
-
王鹤 北大
6DoF 位姿估计 | 通用操作技能 | 具身多模态大模型
-
卢宗青 北大
视觉语言动作模型 VLA | 人形机器人全身控制 | 多智能体强化学习
-
董豪 北大
灵巧手操作与抓取 | 具身基础模型 | 仿真到现实迁移
-
卢策吾 交大
通用机器人具身智能 | 从视频学习机器人行为 | 手部动作理解
-
穆尧 交大
多模态具身认知 | 视觉-语言-动作模型 VLA | 机器人操作与具身世界模型
-
高阳 南大
具身智能与 AI 智能体 | 大模型引导导航与操作 | 视觉-语言-动作模型
-
王越 浙大
学习驱动机器人系统 | 真实世界强化学习 | 具身 AI 模型
-
熊蓉 浙大
机器人操作感知与规划 | 仿人机器人动态运动与平衡控制 | 机器人学习
境外
-
Yunhui Liu(刘云辉) 港中大
视觉机器人 | 医疗机器人 | 具身 AI 系统
-
具身 AI 与灵巧操作 | VLM 驱动机器人感知 | 多模态大模型
-
Ping Luo(罗平) 港大
深度学习基础 | 自动驾驶感知 | 具身 AI 基础模型
-
Ping Tan(谭平) 港科大
计算机视觉与三维重建 | 具身智能端到端规划 | 多模态大模型
-
无人机自主导航 | SLAM 与传感器融合 | 状态估计
-
Deepak Pathak CMU
通用机器人基础模型 | 灵巧手操作 | 跨机器人策略迁移
-
Russ Tedrake MIT
轨迹优化与运动规划 | 控制理论融合机器学习 | Sim-to-Real 协同训练
-
Pulkit Agrawal MIT
机器人强化学习 | 灵巧手与足式运动 | 仿真到现实迁移
-
Chelsea Finn Stanford
模仿学习 | 少样本机器人策略 | 视觉语言操作
-
Shuran Song(宋舒然) Stanford
机器人操作学习 | Diffusion Policy | 可形变物体操作
-
Fei-Fei Li(李飞飞) Stanford
空间智能与世界模型 | 具身视觉感知与操作 | 视觉语言基础模型
-
Pieter Abbeel UC Berkeley
模仿学习操作 | 真实到仿真迁移 | 机器人策略微调
-
Sergey Levine UC Berkeley
机器人基础模型 | 离线强化学习 | 视觉语言动作
-
Xiaolong Wang(王小龙) UCSD
视频表示学习 | 触觉感知 | 人形机器人全身控制
学术会议与期刊
毕业去向
企业
科研院所
相关科普
论文推荐
待补充
欢迎推荐该方向的入门综述或经典论文,参与建设 →