跳转至

具身智能

让机器拥有物理身体,在真实世界中感知、决策、行动,是 AI 算法从数字空间延伸到物理世界的核心课题。

集成电路科研方向全景图 ← 计算媒介更奇异 更贴近物理世界 → 量子 · 光子 存算 · 类脑 模拟 · 射频 数字计算 功率电子 传感 · 生物 · 机械 算法 / 应用 系统 / 软件 体系结构 电路 器件 量子计算 与量子芯片 光电子 与硅光集成 模拟与 混合信号IC 射频与 毫米波IC 类脑芯片 存算一体 与近存计算 硬件安全 与可信计算 AI 算法 与系统 处理器架构 与编译系统 可重构计算 与 FPGA 功率半导体 与宽禁带器件 具身智能 生物电子 与脑机接口 MEMS 与 微纳传感器 各方向通用 EDA 与设计自动化 先进封装与系统集成 半导体器件与先进工艺 数字 模拟 数字 / 模拟 交叉 具身智能

这个方向在研究什么

最强的 AI 能考过律师资格、写出能跑的代码、下赢人类围棋冠军,可它拿不起桌上那个杯子,也走不稳一段不平的路。人类幼崽一岁就能做到的事,对于 AI 来说难如登天。这便是 Moravec 悖论。具身智能(Embodied Intelligence)研究的,就是把 AI 从赛博空间接生到现实世界,让它从纸上谈兵进化到能身体力行。其中的关键在于,如何让 AI 拥有一个能在真实物理世界里感知、决策、行动的身体。

目前横亘在机器人商业落地面前的有三大难关。第一关是操作。让机器人把一个没见过的杯子拿起来放进洗碗机,人不假思索就做了,机器却要同时解决一大堆问题。它得先认出杯子,而杯子的形状、颜色、被挡住多少都可能不一样。还得估出杯子在空间里的朝向,再规划一条手臂轨迹绕开桌上别的东西。抓的时候每根手指要用恰好的力,太轻松手、太重捏碎。放进洗碗机时又得应付开门、搁架高低这些新情况。任何一环出错,整件事就崩,而人是把这些并行、无缝地一气做完的。第二关是运动。双足走路、在不平的地上保持平衡,看着轻巧,机器人却摔了几十年,人形和足式机器人至今还在为站稳、跑起来较劲。第三关是导航,走进一个陌生房间,要一边认路、一边随时知道自己在哪。这三样都是小孩的本能,可它们有一个共同的麻烦,那就是没法从网上学来。没人把"怎么用恰好的力气捏住杯子""打滑的瞬间怎么调整重心"写成文字,这类知识没有文字记录,只能在大量真实动作尝试中积累。

机器人 感知→决策→执行 感知 摄像头 · LiDAR 触觉传感器 决策 视觉-语言模型 策略网络 · RL 执行 电机控制 力反馈 ⚠ 每个环节都是 开放问题 感知泛化 · 决策规划 Sim-to-Real · 灵巧操作

难归难,这两年 LLM 的爆发让机器人的大脑迎来了一波升级。一些具身智能研究者直接把那些在互联网上训练出来的大模型,直接搬到机器人的决策上。2023 年 Google DeepMind 的 RT-2 就是这么干的,它把一个视觉-语言大模型直接当成机器人的“大脑”,输入是摄像头看到的画面加上一句指令,输出直接就是机械臂的动作。因为这个大模型在海量网络数据里见过世界,它能听懂训练时从没出现过的指令。你让它“把可乐罐放到和可口可乐 logo 同颜色的方块上”,它能自己推断出那是红色,再去做。这种举一反三的本领,是过去任何机器人都没有的。

认知可迁移自互联网,技能只能靠本体反复采集 认知 理解·识物·常识 执行 力控·平衡 灵巧操作 互联网大模型 海量文本 + 图像 迁移 此类数据互联网缺失 无法迁移 人工遥操作示范 成本高 仿真训练 有 Sim-to-Real 鸿沟 真机在线学习 慢·有风险·易遗忘 积累(反复采集经验)

可问题在于,捏杯子的力度、走路的平衡,这种身体功夫在互联网上依然没有现成答案,LLM 也不懂。机器只能一次次真实地试、从结果里学。麻烦是真实的尝试又慢又贵,于是研究者凑出了三条攒经验的路。第一条路是真人遥控,让人手把手地遥控机器人,把一个个动作示范给它看,π0 这类模型就靠海量的人类示范学会了叠衣服、装洗碗机,代价是请人示范极费工夫。第二条路是仿真,在虚拟环境里让成千上万个机器人并行练习,又快又便宜,人形机器人的跑、跳、平衡几乎都是这么练出来的。但仿真里的物理和真实世界总对不上,这道仿真到现实的鸿沟(Sim-to-Real)让练好的技能一搬到真机就常常失灵。

第三条路最诱人也最难,就是让机器人自己在真实世界里边做边学,熟能生巧,也就是在线学习。可是真机试错又慢、又有风险、还特别费样本,机器人摔一次可能就摔坏了。而且光有数据还不够,把新经验真正更新进模型的权重,本身也是一道坎。神经网络有个老毛病叫灾难性遗忘(catastrophic forgetting),一学新动作,旧本事常常被覆盖、忘掉;在线更新又不像离线那样能先测好再上线,一次坏的更新就可能让机器人当场变笨、甚至闯祸,事后还很难撤回。把这条路走通,再让机器人在部署之后还能持续学、自己纠错、适应没见过的新环境,就能把"攒经验"从一次性的训练变成一辈子的本事。说到底,如何以可承受的成本积累足够的物理交互数据,是这个方向最核心的瓶颈之一。

再往前看,还有人想给机器人配上一种“想象力”,让它在脑子里建起一个物理世界的模型,真动手之前先预演一下“推这一下会怎样、松了手会不会倒”,这就是当下很热的世界模型空间智能。具身智能整体还是个剧烈变形中的早期方向,视觉-语言-动作模型会长成什么样、眼下都没有定论。可也正因为没定型,真正的开放问题特别多,早期进入有较大的方向选择空间。

此外,机器人不能每动一下都去问云端,延迟太高,断了网就瘫,所以模型必须在机器人身上就地运行。可机器人是电池供电的,留给芯片的功耗和散热预算往往只有十几瓦,决策却得在几十毫秒内出结果。把一个几十亿参数的视觉-语言-动作模型(Vision-Language-Action, VLA)塞进这么小的预算里实时跑,逼出了一类专门的具身芯片研究。一头是边缘 AI 推理的专用加速器和模型压缩,一头是把感知、决策和微秒级电机力矩控制集成进一颗机器人 SoC,还要给触觉、视觉这些传感器配上高密度的读出前端。功耗、散热、延迟这三堵墙,正好把芯片架构和能效推到了最前线。

具身芯片:把几十亿参数的 VLA 压进十几瓦、几十毫秒 具身芯片 实时运行 VLA · 几十亿参数 功耗墙 只有十几瓦 延迟墙 几十毫秒要出结果 散热墙 · 散热受限 边缘 AI 加速器 + 模型压缩 机器人 SoC 感知+决策+微秒级力矩控制 传感器读出前端 触觉 / 视觉 再强的模型,也要在这颗芯片上实时运行。三堵墙把架构和能效推到最前线。

核心研究问题

  • 灵巧操作与触觉力闭环:抓取、手内操作、装配形状各异的物体,要靠触觉和力控在抓握力过轻(滑落)与过重(损坏)之间实时闭环调节。
  • 足式与人形全身控制:走、跑、跳、被推还能站稳,要在几十个关节上实时协调动力学,学习方法和经典控制怎么结合,各家做法不一。
  • 视觉-语言-动作模型:基础大模型能把世界知识迁到动作上,可每项灵巧操作仍要海量真人示范,泛化到底卡在数据还是卡在身体,没有定论。
  • 训练经验的来源:真机示范贵,仿真有 Sim-to-Real 鸿沟,真实世界强化学习又慢又险还会灾难性遗忘,三条路各有代价。
  • 端侧实时推理:要在十几瓦的功耗预算里、几十毫秒内跑通几十亿参数的 VLA 模型,对芯片架构和能效是直接的考验。

知识路径

IC 背景的人从硬件线(数字设计→嵌入式→加速器)切入,算法背景的人走算法线(数学三件套→机器学习→强化学习/大模型),控制线(大学物理的力学 + 信号处理→控制与机器人)是机器人独有的一支,三条线在系统层汇合。节点都是学习地图里的目录:

graph LR
    AN[分析] --> PROB[概率与统计]
    DS[代数] --> PROB
    PROB --> ML[机器学习]
    DS[代数] --> ML
    PY[编程入门] --> ML
    ML --> DL[深度学习]
    DL --> RL[强化学习]
    DL --> LLM[大语言模型]
    RL --> E[具身智能]
    LLM --> E
    PHY[大学物理] --> CTRL[控制与机器人]
    AN --> SIG[信号处理]
    SIG --> CTRL
    CTRL --> E
    DIG[数字设计] --> SOC[嵌入式SoC]
    SIG --> SOC
    SOC --> E
    ARCH[体系结构] --> ACC[AI加速器]
    DL --> ACC
    ACC --> E

    classDef math fill:#EBF4FF,stroke:#2C5282
    classDef hw fill:#FFFBEB,stroke:#B7791F
    classDef sw fill:#F0FDF4,stroke:#16A34A
    classDef goal fill:#F1F5F9,stroke:#64748B,stroke-width:2px
    class AN,DS,PROB,PY math
    class PHY,DIG,SIG,SOC,CTRL,ACC,ARCH hw
    class ML,DL,RL,LLM sw
    class E goal

想做硬件视角(边缘 AI 芯片、机器人 SoC、传感器 IC、TinyML/SNN)与完整全栈学习(VLA / SLAM / 控制 / 仿真),请见 专题社区 中收录的 Embodied-AI-Guide。

这个方向适合谁

这个方向的日常一半在仿真里训练,一半在真机上调试。机器人会摔、会坏、练好的技能搬到现实常常失灵,得受得了跟硬件打交道的繁琐工程,同时要求一定的体能,价值几十万的机器人摔倒是常事。核心圈是机器人加机器学习,想进迟早要补机器人学和强化学习;微电子出身的切口在硬件侧,传感器读出、边缘推理、机器人 SoC,在十几瓦功耗预算内完成大模型的实时推理,是实际的工程挑战。整个领域还在剧烈变形,技术路线没有定型,适合喜欢开辟新方向、能忍受不确定性的人。

学术界

课题组

境内

  • 刘华平 清华

    多模态机器人感知 | 跨模态持续学习 | 交互式控制

  • 孙富春 清华

    机器人灵巧操作 | 主动感知 | 虚实迁移强化学习

  • 高阳 清华

    具身智能与 AI 智能体 | 大模型引导导航与操作 | 视觉-语言-动作模型

  • 许华哲 清华

    强化学习 | 感觉运动控制 | 触觉感知

  • 陈建宇 清华

    强化学习 | 足式机器人控制 | 安全约束优化

  • 李响 清华

    灵巧操作 | 手内操作 | 人机协作外骨骼

  • 赵行 清华

    多模态机器学习 | 机器人/人形跑酷学习 | 自动驾驶视觉

  • 苏昊 复旦

    机器人灵巧操作 | 仿真基准 ManiSkill | 视觉语言动作模型

  • 陈涛 复旦

    3D 场景理解 | 具身多模态大模型 | 嵌入式 AI 推理

  • 甘中学 复旦

    多智能体协同控制 | 视觉强化学习 | 自主无人系统

  • 徐鉴 复旦

    仿生软体驱动 | 外骨骼与假肢 | 非线性时滞控制

  • 张文强 复旦

    机器人视觉感知 | 知识图谱推理 | 柔性手术机器人

  • 张立华 复旦

    强化学习机器人控制 | 多模态行为感知 | 数字孪生仿真

  • 朱毅鑫 北大

    触觉感知 | 人形机器人 | 物理推理与具身 AI

  • 董浩 北大

    具身 AI 缩放律 | 大模型 + 强化学习 | 操作与导航

  • 王鹤 北大

    6DoF 位姿估计 | 通用操作技能 | 具身多模态大模型

  • 卢宗青 北大

    视觉语言动作模型 VLA | 人形机器人全身控制 | 多智能体强化学习

  • 董豪 北大

    灵巧手操作与抓取 | 具身基础模型 | 仿真到现实迁移

  • 卢策吾 交大

    通用机器人具身智能 | 从视频学习机器人行为 | 手部动作理解

  • 穆尧 交大

    多模态具身认知 | 视觉-语言-动作模型 VLA | 机器人操作与具身世界模型

  • 高阳 南大

    具身智能与 AI 智能体 | 大模型引导导航与操作 | 视觉-语言-动作模型

  • 王越 浙大

    学习驱动机器人系统 | 真实世界强化学习 | 具身 AI 模型

  • 熊蓉 浙大

    机器人操作感知与规划 | 仿人机器人动态运动与平衡控制 | 机器人学习

境外

  • Yunhui Liu(刘云辉) 港中大

    视觉机器人 | 医疗机器人 | 具身 AI 系统

  • Hongsheng Li(李鸿升) 港中大

    具身 AI 与灵巧操作 | VLM 驱动机器人感知 | 多模态大模型

  • Ping Luo(罗平) 港大

    深度学习基础 | 自动驾驶感知 | 具身 AI 基础模型

  • Ping Tan(谭平) 港科大

    计算机视觉与三维重建 | 具身智能端到端规划 | 多模态大模型

  • Shaojie Shen(沈劭劼) 港科大

    无人机自主导航 | SLAM 与传感器融合 | 状态估计

  • Deepak Pathak CMU

    通用机器人基础模型 | 灵巧手操作 | 跨机器人策略迁移

  • Russ Tedrake MIT

    轨迹优化与运动规划 | 控制理论融合机器学习 | Sim-to-Real 协同训练

  • Pulkit Agrawal MIT

    机器人强化学习 | 灵巧手与足式运动 | 仿真到现实迁移

  • Chelsea Finn Stanford

    模仿学习 | 少样本机器人策略 | 视觉语言操作

  • Shuran Song(宋舒然) Stanford

    机器人操作学习 | Diffusion Policy | 可形变物体操作

  • Fei-Fei Li(李飞飞) Stanford

    空间智能与世界模型 | 具身视觉感知与操作 | 视觉语言基础模型

  • Pieter Abbeel UC Berkeley

    模仿学习操作 | 真实到仿真迁移 | 机器人策略微调

  • Sergey Levine UC Berkeley

    机器人基础模型 | 离线强化学习 | 视觉语言动作

  • Xiaolong Wang(王小龙) UCSD

    视频表示学习 | 触觉感知 | 人形机器人全身控制

学术会议与期刊

会议 RSS ICRA IROS CoRL NeurIPS ICML CVPR
期刊 Science Robotics IEEE T-RO IJRR IEEE RA-L

毕业去向

企业

科研院所

相关科普

论文推荐

待补充

欢迎推荐该方向的入门综述或经典论文,参与建设 →