具身智能

让机器拥有物理身体，在真实世界中感知、决策、行动，是 AI 算法从数字空间延伸到物理世界的核心课题。

这个方向在研究什么

最强的 AI 能考过律师资格、写出能跑的代码、下赢人类围棋冠军，可它拿不起桌上那个杯子，也走不稳一段不平的路。人类幼崽一岁就能做到的事，对于 AI 来说难如登天。这便是 Moravec 悖论。具身智能（Embodied Intelligence）研究的，就是把 AI 从赛博空间接生到现实世界，让它从纸上谈兵进化到能身体力行。其中的关键在于，如何让 AI 拥有一个能在真实物理世界里感知、决策、行动的身体。

目前横亘在机器人商业落地面前的有三大难关。第一关是操作。让机器人把一个没见过的杯子拿起来放进洗碗机，人不假思索就做了，机器却要同时解决一大堆问题。它得先认出杯子，而杯子的形状、颜色、被挡住多少都可能不一样。还得估出杯子在空间里的朝向，再规划一条手臂轨迹绕开桌上别的东西。抓的时候每根手指要用恰好的力，太轻松手、太重捏碎。放进洗碗机时又得应付开门、搁架高低这些新情况。任何一环出错，整件事就崩，而人是把这些并行、无缝地一气做完的。第二关是运动。双足走路、在不平的地上保持平衡，看着轻巧，机器人却摔了几十年，人形和足式机器人至今还在为站稳、跑起来较劲。第三关是导航，走进一个陌生房间，要一边认路、一边随时知道自己在哪。这三样都是小孩的本能，可它们有一个共同的麻烦，那就是没法从网上学来。没人把"怎么用恰好的力气捏住杯子""打滑的瞬间怎么调整重心"写成文字，这类知识没有文字记录，只能在大量真实动作尝试中积累。

难归难，这两年 LLM 的爆发让机器人的大脑迎来了一波升级。一些具身智能研究者直接把那些在互联网上训练出来的大模型，直接搬到机器人的决策上。2023 年 Google DeepMind 的 RT-2 就是这么干的，它把一个视觉-语言大模型直接当成机器人的“大脑”，输入是摄像头看到的画面加上一句指令，输出直接就是机械臂的动作。因为这个大模型在海量网络数据里见过世界，它能听懂训练时从没出现过的指令。你让它“把可乐罐放到和可口可乐 logo 同颜色的方块上”，它能自己推断出那是红色，再去做。这种举一反三的本领，是过去任何机器人都没有的。

可问题在于，捏杯子的力度、走路的平衡，这种身体功夫在互联网上依然没有现成答案，LLM 也不懂。机器只能一次次真实地试、从结果里学。麻烦是真实的尝试又慢又贵，于是研究者凑出了三条攒经验的路。第一条路是真人遥控，让人手把手地遥控机器人，把一个个动作示范给它看，π0 这类模型就靠海量的人类示范学会了叠衣服、装洗碗机，代价是请人示范极费工夫。第二条路是仿真，在虚拟环境里让成千上万个机器人并行练习，又快又便宜，人形机器人的跑、跳、平衡几乎都是这么练出来的。但仿真里的物理和真实世界总对不上，这道仿真到现实的鸿沟（Sim-to-Real）让练好的技能一搬到真机就常常失灵。

第三条路最诱人也最难，就是让机器人自己在真实世界里边做边学，熟能生巧，也就是在线学习。可是真机试错又慢、又有风险、还特别费样本，机器人摔一次可能就摔坏了。而且光有数据还不够，把新经验真正更新进模型的权重，本身也是一道坎。神经网络有个老毛病叫灾难性遗忘（catastrophic forgetting），一学新动作，旧本事常常被覆盖、忘掉；在线更新又不像离线那样能先测好再上线，一次坏的更新就可能让机器人当场变笨、甚至闯祸，事后还很难撤回。把这条路走通，再让机器人在部署之后还能持续学、自己纠错、适应没见过的新环境，就能把"攒经验"从一次性的训练变成一辈子的本事。说到底，如何以可承受的成本积累足够的物理交互数据，是这个方向最核心的瓶颈之一。

再往前看，还有人想给机器人配上一种“想象力”，让它在脑子里建起一个物理世界的模型，真动手之前先预演一下“推这一下会怎样、松了手会不会倒”，这就是当下很热的世界模型和空间智能。具身智能整体还是个剧烈变形中的早期方向，视觉-语言-动作模型会长成什么样、眼下都没有定论。可也正因为没定型，真正的开放问题特别多，早期进入有较大的方向选择空间。

此外，机器人不能每动一下都去问云端，延迟太高，断了网就瘫，所以模型必须在机器人身上就地运行。可机器人是电池供电的，留给芯片的功耗和散热预算往往只有十几瓦，决策却得在几十毫秒内出结果。把一个几十亿参数的视觉-语言-动作模型（Vision-Language-Action, VLA）塞进这么小的预算里实时跑，逼出了一类专门的具身芯片研究。一头是边缘 AI 推理的专用加速器和模型压缩，一头是把感知、决策和微秒级电机力矩控制集成进一颗机器人 SoC，还要给触觉、视觉这些传感器配上高密度的读出前端。功耗、散热、延迟这三堵墙，正好把芯片架构和能效推到了最前线。

核心研究问题

灵巧操作与触觉力闭环：抓取、手内操作、装配形状各异的物体，要靠触觉和力控在抓握力过轻（滑落）与过重（损坏）之间实时闭环调节。
足式与人形全身控制：走、跑、跳、被推还能站稳，要在几十个关节上实时协调动力学，学习方法和经典控制怎么结合，各家做法不一。
视觉-语言-动作模型：基础大模型能把世界知识迁到动作上，可每项灵巧操作仍要海量真人示范，泛化到底卡在数据还是卡在身体，没有定论。
训练经验的来源：真机示范贵，仿真有 Sim-to-Real 鸿沟，真实世界强化学习又慢又险还会灾难性遗忘，三条路各有代价。
端侧实时推理：要在十几瓦的功耗预算里、几十毫秒内跑通几十亿参数的 VLA 模型，对芯片架构和能效是直接的考验。

知识路径

IC 背景的人从硬件线（数字设计→嵌入式→加速器）切入，算法背景的人走算法线（数学三件套→机器学习→强化学习/大模型），控制线（大学物理的力学 + 信号处理→控制与机器人）是机器人独有的一支，三条线在系统层汇合。节点都是学习地图里的目录：

graph LR
    AN[分析] --> PROB[概率与统计]
    DS[代数] --> PROB
    PROB --> ML[机器学习]
    DS[代数] --> ML
    PY[编程入门] --> ML
    ML --> DL[深度学习]
    DL --> RL[强化学习]
    DL --> LLM[大语言模型]
    RL --> E[具身智能]
    LLM --> E
    PHY[大学物理] --> CTRL[控制与机器人]
    AN --> SIG[信号处理]
    SIG --> CTRL
    CTRL --> E
    DIG[数字设计] --> SOC[嵌入式SoC]
    SIG --> SOC
    SOC --> E
    ARCH[体系结构] --> ACC[AI加速器]
    DL --> ACC
    ACC --> E

    classDef math fill:#EBF4FF,stroke:#2C5282
    classDef hw fill:#FFFBEB,stroke:#B7791F
    classDef sw fill:#F0FDF4,stroke:#16A34A
    classDef goal fill:#F1F5F9,stroke:#64748B,stroke-width:2px
    class AN,DS,PROB,PY math
    class PHY,DIG,SIG,SOC,CTRL,ACC,ARCH hw
    class ML,DL,RL,LLM sw
    class E goal

数学：分析 · 代数（线性代数） · 概率与统计
算法编程：编程入门（Python）
人工智能：机器学习 · 深度学习 · 强化学习 · 大语言模型
物理：大学物理（力学是运动学/动力学的基础）
电路：信号处理 · 数字设计 · 嵌入式SoC · 控制与机器人（待建）
系统架构：体系结构 · AI加速器

想做硬件视角(边缘 AI 芯片、机器人 SoC、传感器 IC、TinyML/SNN)与完整全栈学习(VLA / SLAM / 控制 / 仿真),请见专题社区中收录的 Embodied-AI-Guide。

这个方向适合谁

这个方向的日常一半在仿真里训练，一半在真机上调试。机器人会摔、会坏、练好的技能搬到现实常常失灵，得受得了跟硬件打交道的繁琐工程，同时要求一定的体能，价值几十万的机器人摔倒是常事。核心圈是机器人加机器学习，想进迟早要补机器人学和强化学习；微电子出身的切口在硬件侧，传感器读出、边缘推理、机器人 SoC，在十几瓦功耗预算内完成大模型的实时推理，是实际的工程挑战。整个领域还在剧烈变形，技术路线没有定型，适合喜欢开辟新方向、能忍受不确定性的人。

学术界

课题组

境内

刘华平 清华

多模态机器人感知 | 跨模态持续学习 | 交互式控制
孙富春 清华

机器人灵巧操作 | 主动感知 | 虚实迁移强化学习
高阳清华

具身智能与 AI 智能体 | 大模型引导导航与操作 | 视觉-语言-动作模型
许华哲 清华

强化学习 | 感觉运动控制 | 触觉感知
陈建宇 清华

强化学习 | 足式机器人控制 | 安全约束优化
李响清华

灵巧操作 | 手内操作 | 人机协作外骨骼
赵行清华

多模态机器学习 | 机器人/人形跑酷学习 | 自动驾驶视觉
苏昊复旦

机器人灵巧操作 | 仿真基准 ManiSkill | 视觉语言动作模型
陈涛复旦

3D 场景理解 | 具身多模态大模型 | 嵌入式 AI 推理
甘中学 复旦

多智能体协同控制 | 视觉强化学习 | 自主无人系统
徐鉴复旦

仿生软体驱动 | 外骨骼与假肢 | 非线性时滞控制
张文强 复旦

机器人视觉感知 | 知识图谱推理 | 柔性手术机器人
张立华 复旦

强化学习机器人控制 | 多模态行为感知 | 数字孪生仿真
朱毅鑫 北大

触觉感知 | 人形机器人 | 物理推理与具身 AI
董浩北大

具身 AI 缩放律 | 大模型 + 强化学习 | 操作与导航
王鹤北大

6DoF 位姿估计 | 通用操作技能 | 具身多模态大模型
卢宗青 北大

视觉语言动作模型 VLA | 人形机器人全身控制 | 多智能体强化学习
董豪北大

灵巧手操作与抓取 | 具身基础模型 | 仿真到现实迁移
卢策吾 交大

通用机器人具身智能 | 从视频学习机器人行为 | 手部动作理解
穆尧交大

多模态具身认知 | 视觉-语言-动作模型 VLA | 机器人操作与具身世界模型
高阳南大

具身智能与 AI 智能体 | 大模型引导导航与操作 | 视觉-语言-动作模型
王越浙大

学习驱动机器人系统 | 真实世界强化学习 | 具身 AI 模型
熊蓉浙大

机器人操作感知与规划 | 仿人机器人动态运动与平衡控制 | 机器人学习

境外

Yunhui Liu（刘云辉） 港中大

视觉机器人 | 医疗机器人 | 具身 AI 系统
Hongsheng Li（李鸿升） 港中大

具身 AI 与灵巧操作 | VLM 驱动机器人感知 | 多模态大模型
Ping Luo（罗平） 港大

深度学习基础 | 自动驾驶感知 | 具身 AI 基础模型
Ping Tan（谭平） 港科大

计算机视觉与三维重建 | 具身智能端到端规划 | 多模态大模型
Shaojie Shen（沈劭劼） 港科大

无人机自主导航 | SLAM 与传感器融合 | 状态估计
Deepak Pathak CMU

通用机器人基础模型 | 灵巧手操作 | 跨机器人策略迁移
Russ Tedrake MIT

轨迹优化与运动规划 | 控制理论融合机器学习 | Sim-to-Real 协同训练
Pulkit Agrawal MIT

机器人强化学习 | 灵巧手与足式运动 | 仿真到现实迁移
Chelsea Finn Stanford

模仿学习 | 少样本机器人策略 | 视觉语言操作
Shuran Song（宋舒然） Stanford

机器人操作学习 | Diffusion Policy | 可形变物体操作
Fei-Fei Li（李飞飞） Stanford

空间智能与世界模型 | 具身视觉感知与操作 | 视觉语言基础模型
Pieter Abbeel UC Berkeley

模仿学习操作 | 真实到仿真迁移 | 机器人策略微调
Sergey Levine UC Berkeley

机器人基础模型 | 离线强化学习 | 视觉语言动作
Xiaolong Wang（王小龙） UCSD

视频表示学习 | 触觉感知 | 人形机器人全身控制

学术会议与期刊

会议 RSS ICRA IROS CoRL NeurIPS ICML CVPR

期刊 Science Robotics IEEE T-RO IJRR IEEE RA-L

毕业去向

企业

科研院所

国内上海人工智能实验室北京智源人工智能研究院 BAAI 国地共建具身智能机器人创新中心 / 北京人形机器人创新中心

国外 MIT CSAIL

论文推荐

待补充

欢迎推荐该方向的入门综述或经典论文，参与建设 →