跳转至

AI算法与系统

研究让机器更聪明的算法与系统基础,包括强化学习、大语言模型、AI Agent,以及让这些算法在真实系统上高效运行的软硬件基础设施。

集成电路科研方向全景图 ← 计算媒介更奇异 更贴近物理世界 → 量子 · 光子 存算 · 类脑 模拟 · 射频 数字计算 功率电子 传感 · 生物 · 机械 算法 / 应用 系统 / 软件 体系结构 电路 器件 量子计算 与量子芯片 光电子 与硅光集成 模拟与 混合信号IC 射频与 毫米波IC 类脑芯片 存算一体 与近存计算 硬件安全 与可信计算 AI 算法 与系统 处理器架构 与编译系统 可重构计算 与 FPGA 功率半导体 与宽禁带器件 具身智能 生物电子 与脑机接口 MEMS 与 微纳传感器 各方向通用 EDA 与设计自动化 先进封装与系统集成 半导体器件与先进工艺 数字 模拟 数字 / 模拟 交叉 AI 算法 与系统

这个方向在研究什么

2024 年 7 月,OpenAI 披露了一份内部 AGI 路线图,把 AI 的发展分成五级:

  • L1:对话型(自然语言交互)
  • L2:推理型(解博士级问题)
  • L3:行动型(自主完成几小时到几天的多步任务)
  • L4:创新型(协助发明)
  • L5:组织型(替代整个组织)

思维链(Chain-of-Thought)让模型学会一步步推理,L2 如今已稳稳实现。最近一年,Claude Code 和 Codex 迅猛发展,如今的 AI 不仅能写出稳健的代码,还能轻松管理大型项目。L3 也基本实现。至于 L4,AI for Science 已经在蛋白质结构(AlphaFold)、新材料发现上大放异彩。从 2022 年至今,AI 的每一步跨越,都不是靠某个单点的高歌猛进。模型能力、系统效率、训练数据三者相互制约,需要同步推进。

OpenAI 2024 年 7 月披露的 AGI 5 级路线图 每跨一级,需要算法、系统、数据三方面同步突破 L1 对话型 Chatbots 对话能力 / 自然语言交互 代表产品 ChatGPT Claude Gemini 已稳定 L2 推理型 Reasoners 博士级问题求解 代表产品 o1 / o3 DeepSeek-R1 Claude thinking 已实现 (2024) L3 行动型 Agents 自主完成长任务 (数小时-数天) 代表产品 Claude Code Devin ChatGPT Operator 加速中 L4 创新型 Innovators 协助科学发明 / 提出新想法 代表产品 远期 L5 组织型 Organizations 替代整个组织运作 代表产品 远期

早期,大家都信奉一个朴素真理——模型越大越聪明,这就是Scaling Law。ChatGPT 刚发布那段时间,参数规模、数据量、算力同步增加,模型能力持续提升。直到 Llama 3 的 4050 亿参数版本,Meta 动用 1.6 万张 H100 训了 54 天,继续扩大规模,提升越来越小。研究重心随之转向提高训练效率。MoE(Mixture of Experts,混合专家;如 DeepSeek-V3)把模型拆成一群”专家”,每次只激活一两个,让参数规模和计算成本脱钩。强化学习的作用同样关键。R1-Zero 只用少量”冷启动”数据引导模型写推理过程,其余由 RL 自主探索,思维链由此趋于稳定,也支撑了 L2 的实现。模型输入也从纯文本扩展到图像和视频,即多模态(multimodal;如 GPT-4V、Sora)。

规模扩展的边际收益递减 算力 / 参数规模 → 能力 瓶颈 继续扩大规模,提升有限 Llama 3 · 4050 亿参数 1.6 万张 H100 · 54 天 转向更高效的训练方法 MoE · 强化学习(R1-Zero) · 多模态

实际部署中,LLM 遇到的主要瓶颈在系统的显存和带宽。注意力(Attention)机制需要序列内每个词两两交互,过程中产生大量中间矩阵,在显存(HBM)和计算核心之间反复传输,带宽消耗很大。上下文越长,需要缓存的 KV Cache(Key-Value Cache,键值缓存)越大,显存压力越重。Flash Attention 把注意力计算分块,数据从 HBM 取出后在片上完成计算再写回,大幅减少访存次数。vLLM 的 PagedAttention(分页注意力)借鉴虚拟内存的分页机制管理 KV Cache,提高显存利用率。量化针对另一类冗余。神经网络权重的数值分布集中在窄区间,从 32 位浮点压到 8 位甚至 4 位整数,精度损失极小。这条线最贴近硬件,微电子背景在这里有直接优势。在模型外套一层 Agent(智能体),通过控制框架引导模型调用工具、分步完成任务,模型的行动能力从单次推理扩展到多步操作,即 L3。Claude Code 等都属于这类工程实践。

内存墙:注意力的瓶颈在于频繁访存 Flash Attention 通过分块将计算保持在片上,减少 HBM 访问 朴素注意力 计算核心 · 片上 SRAM 片外显存 HBM 中间结果反复读写 Flash Attention(分块) 分块在片上完成 显存 HBM 读入分块 写回结果 频繁访存,带宽受限 访存大幅减少,带宽友好 量化:权重集中于窄区间,由 32 位浮点降至 4 位整数,精度损失很小

算法和系统之外,训练数据的规模和质量同样决定模型上限。GPT-4、Llama 3 这个量级,训练数据在 10 到 15 万亿词(token),几乎覆盖了开放互联网上的高质量内容。公开数据目前已接近上限,新增来源主要有两类。一类是合成数据,用已有强模型生成新数据训练下一代,比如 Tesla 的 FSD 通过仿真生成暴雨夜驾、行人突然横穿等极端场景。另一类是专家精选数据,包括科学论文、专业推理过程标注,或专门为模型设计的高难度题库。

以上方向都还在 LLM 这条路上。LLM 的基本范式是否正确,本身存在争议。Yann LeCun 长期批评逐词预测的训练方式,认为模型学不到物理世界的规律。他主推的 JEPA(Joint-Embedding Predictive Architecture,联合嵌入预测架构)让模型预测视频中被遮住部分的高层语义(”这是个球,正在落地”),而不是逐像素还原。神经符号(Neuro-symbolic)则尝试把神经网络的感知能力和符号系统的严格推理结合起来。这些方向目前都在发展,尚无明显定论。

把越来越多的决策交给模型,前提是能解释它的行为,也能约束它的边界。2026 年 2 月的中东战事里,Claude 把伊朗的一所小学误标成军火库,导致美军误炸,156 条无辜生命遇难。同类的还有越狱攻击、ChatGPT 写法律文书时引用根本不存在的判例被法庭处罚。AI 安全就是给模型划定可控的行为边界,比如 Anthropic 的宪法 AI(Constitutional AI)让模型按一组原则边生成边自检。可解释性的目标是弄清楚模型内部在做什么。LLM 的工作原理对人类来说至今基本不透明,权重矩阵的每次运算背后的语义尚不清楚。稀疏自编码器(Sparse Autoencoder, SAE)能从大模型的中间表征中识别出”概念神经元”,某个神经元的激活恰好对应”金门大桥”或”代码里的 bug”,是目前可解释性研究中少数有具体发现的方向。

前沿大模型的训练目前集中在少数大厂。成本是门槛之一,单次训练在 1 亿美元量级,但更难复制的壁垒是私有数据和算力。开放互联网的数据大家都能用,而 Google 的搜索行为、Meta 的社交内容、字节的视频互动这类私有数据只有大厂自己有,直接决定模型在真实任务上的能力上限。算力也一样,顶级大模型需要万卡级数据中心,背后是电力、液冷、高速互联,高校难以独立建设。但学术界并没有被完全排除在外,在大厂开源模型底座(Llama、DeepSeek)后,学术界可以在后训练、推理优化、可解释性等方向深入,产出的成果再被工业界采用。像Flash Attention 出自 Stanford,vLLM 出自 UC Berkeley,AWQ 出自 MIT,这些工作后来都被大厂的推理引擎采用。

核心研究问题

  • 模型架构与数据效率:纯扩大参数规模已遇到边际递减,MoE 把参数规模和算力解耦但路由与稀疏激活尚未解决,公开高质量语料接近耗尽、合成数据存在退化风险,新架构和数据工程需要同步推进。
  • 强化学习与后训练:R1-Zero 式 RL 撑起了思维链推理,但奖励设计、训练稳定性、对齐和样本效率都不成熟。
  • Agent 与多智能体:agent 把推理变成对外界的多步操作,长任务里错误一路累积,多个角色怎么分工、错误怎么发现和回滚,方法还不成型。
  • 训练与 serving 系统:万卡集群上的并行训练、低成本 LLM serving、端边云推理调度,要在带宽、显存、通信之间反复权衡。
  • 高效推理与量化:上下文越长 KV Cache 越吃显存,Flash Attention 靠片上分块减少访存、量化把权重压到 4 位精度损失极小,但哪些权重该保精度、加速器和编译器如何充分利用这部分加速效果,是软硬协同的难题。
  • 多模态:从纯文本走向理解图像视频,视觉-语言基础模型怎么对齐不同模态、又不丢失各自的信息。
  • 可解释性与 AI 安全:把更多决策交给模型,得靠稀疏自编码器这类工具看清内部在做什么,再用宪法 AI 一类机制划出可控的行为边界。
  • LLM 之外的范式:LeCun 的 JEPA 和 Neuro-symbolic 质疑 token 级预测学不到世界规律,世界模型与符号推理的融合是另一条在走的路。

知识路径

数学三件套(线性代数 + 微积分/分析 + 概率统计)是算法线入口,优化理论贯穿整个训练流程;系统线(体系结构 + 并行 + 编译)和算法线在 AI 系统汇合。节点对应学习地图里的目录:

graph LR
    代数[代数] --> ML[机器学习]
    分析[分析] --> ML
    分析 --> PROB[概率与统计]
    代数 --> PROB
    分析 --> OPT[数值与优化]
    代数 --> OPT
    PROB --> ML
    OPT --> ML
    PY[编程入门] --> ML
    PY --> SYS
    ML --> MLT[机器学习理论]
    ML --> DL[深度学习]
    ML --> RL[强化学习]
    DL --> LLM[大语言模型]
    DL --> GEN[深度生成模型]
    DL --> RL
    DL --> AIS[AI系统]
    LLM --> AIS
    SYS[计算机系统基础] --> ARCH[体系结构]
    ARCH --> GPU[GPU体系结构]
    ARCH --> PAR[并行与分布式系统]
    ARCH --> COMP[编译原理]
    GPU --> AIS
    PAR --> AIS
    COMP --> AIS
    AIS --> X[AI算法与系统]
    LLM --> X
    GEN --> X
    RL --> X
    MLT --> X

    classDef math fill:#EBF4FF,stroke:#2C5282
    classDef ai fill:#F0FDF4,stroke:#16A34A
    classDef sys fill:#FFFBEB,stroke:#B7791F
    classDef goal fill:#F1F5F9,stroke:#64748B,stroke-width:2px
    class 代数,分析,PROB,OPT,PY math
    class ML,MLT,DL,LLM,GEN,RL,AIS ai
    class SYS,ARCH,GPU,PAR,COMP sys
    class X goal

这个方向适合谁

适合真心对“让模型更聪明、更高效”有热情的人。在集成电路各方向里,这个方向与 AI 的距离最近。如果做纯算法,那迭代节奏极快,成果挂 arXiv,论文周期短、迭代快,今天的 SOTA 三个月后就被超越,跟得上会兴奋,跟不上会焦虑。日常就是写 PyTorch、改模型、在 GPU 集群上排队跑实验。如果结合系统和硬件架构,则属于 AI Infra,非常适合微电子出身的同学。系统侧,量化、推理优化这些贴近硬件的工作,微电子背景能从访存带宽理解其节省的来源,纯软件出身的人未必有这个直觉;越往纯算法和理论走,数学要求越重,需要专门投入时间补足,难以靠硬件直觉弥补。

学术界

课题组

境内

  • 马恺声 清华

    LLM 高效推理 | 算法架构协同设计 | Chiplet 大模型加速器

  • 高鸣宇 清华

    稀疏注意力优化 | 私有推理架构 | 稀疏张量加速器

  • 朱军 清华

    生成模型 | 扩散模型加速 | 低精度推理

  • 唐杰 清华

    大模型预训练 | 高效微调 | 分布式训练

  • 刘知远 清华

    大语言模型 | 模型压缩蒸馏 | 高效推理

  • 陈键飞 清华

    模型量化训练 | 稀疏剪枝 | 低比特大模型

  • 曹婷 清华

    端侧 LLM 推理 | 量化压缩 | AI 加速器

  • 邱锡鹏 复旦

    大模型高效训练 | 长上下文推理 | 稀疏化与压缩

  • 陈涛 复旦

    视觉大模型压缩 | 量化与剪枝加速 | 边缘高效推理

  • 崔斌 北大

    分布式大模型训练 | 异构集群并行策略 | LLM 推理加速

  • 杨耀东 北大

    大模型对齐训练 | 强化学习后训练 | 多智能体系统

  • 谢洪 中科大

    大模型强化微调 | 智能体规划与世界模型 | 科学智能

  • 康奇宇 中科大

    大模型量化与高效推理 | 物理信息神经网络 | 多模态大模型

  • 陈云霁 中科院

    神经网络专用处理器 | AI 编译器与算子生成 | 芯片设计自动化

  • 陈全 交大

    DNN 推理系统 | 异构硬件调度 | AI 编译与加速

  • 蒋力 交大

    AI 专用处理器与编译器 | 神经网络压缩量化 | 存内计算架构

  • 张伟楠 交大

    大模型强化学习对齐 | 多智能体协作 | 具身与 GUI Agent

  • 温颖 交大

    多智能体强化学习 | LLM Agent 决策 | 长时序信用分配

  • 刘鹏飞 交大

    大模型复杂推理(o1 复现)· 预训练数据工程 | 多模态生成大模型

  • 张拳石 交大

    神经网络可解释性(XAI 理论)· LLM 推理机制分析 | 深度学习泛化理论

  • 高阳 南大

    强化学习 | 多智能体学习 | 大模型推理与 Agent

  • 周志华 南大

    机器学习理论 | 集成学习 | 弱监督学习

  • 吴飞 浙大

    大模型指令微调 | 多模态大模型 | AI 系统与开放平台

  • 周军 成电

    超低功耗 AI 芯片 | 算法-芯片协同设计 | 智能感知终端

  • 刘洋 成电

    AI 芯片 | 忆阻器和神经网络 | 集成电路设计

境外

  • Tao Yu(余涛) 港大

    LLM Agent | 代码生成(Spider/SWE)· 计算机使用智能体(OSWorld)

  • Kai Chen(陈凯) 港科大

    分布式训练网络 | AI 集群调度 | 高性能互联

  • James Tin Yau Kwok(郭天佑) 港科大

    模型压缩与量化 | 高效深度学习 | 联邦学习

  • Xiaowen Chu(褚晓文) 港科大

    稀疏 LLM 推理系统 | KV 缓存压缩 | MoE 分布式训练

  • Tianqi Chen(陈天奇) CMU

    AI 编译器(TVM/Apache MXNet)· LLM 全平台部署(MLC-LLM)· ML 系统全栈

  • Zhihao Jia(贾志豪) CMU

    LLM 推理加速 | GPU 算子编译优化 | 分布式训练并行化

  • Graham Neubig CMU

    LLM Agent 系统 | 代码生成与软件工程 | 多语言 NLP

  • Beidi Chen(陈贝迪) CMU

    高效 LLM 推理 | 上下文稀疏性(Deja Vu) | 单卡推理(FlexGen)

  • Vijay Janapa Reddi Harvard

    边缘 AI 推理 | TinyML 系统 | MLPerf 基准测试

  • Song Han(韩松) MIT

    LLM 量化与压缩(AWQ/SmoothQuant)· 高效推理与稀疏注意力 | 端侧大模型部署

  • Vivienne Sze(施) MIT

    神经网络加速器设计 | 稀疏计算加速(Eyeriss/HighLight)· 硬件-算法协同优化

  • Danqi Chen(陈丹琦) Princeton

    大语言模型训练 | 长上下文推理 | 对齐与强化学习

  • Karthik Narasimhan Princeton

    LLM Agent | 推理框架(ReAct/ToT) | 代码自动化(SWE-agent)

  • Percy Liang(梁) Stanford

    大模型从头训练 | 基础模型评测(HELM)· AI 系统基础设施

  • Fei-Fei Li(李飞飞) Stanford

    视觉语言基础模型 | 空间智能与 3D 理解 | 具身 AI 系统

  • Emma Brunskill Stanford

    强化学习 | RL 调优 LLM | 教育医疗决策

  • Ion Stoica UC Berkeley

    LLM 推理服务(vLLM)· 多云分布式 AI 调度 | 开放评测平台

  • Matei Zaharia UC Berkeley

    LLM 程序优化(DSPy)· 稀疏 MoE 训练 | 分布式数据与 ML 运行时

  • Joseph Gonzalez UC Berkeley

    LLM serving(SGLang/vLLM)· LLM Agent 与 API 调用 | 边缘端模型部署

  • Pieter Abbeel UC Berkeley

    视觉语言模型操控 | 机器人世界模型 | 从视频学习策略

  • Sergey Levine UC Berkeley

    大模型机器人策略 | 离线强化学习 | 语言条件控制

  • Yi Ma(马毅) UC Berkeley

    白盒 Transformer 理论 | 稀疏率压缩表示 | 可解释深度学习

  • Yuandong Tian(田渊栋) Meta FAIR

    训练内存优化(GaLore) | LLM 量化与推理加速 | 隐空间推理(Coconut)

  • Deming Chen(陈德铭) UIUC

    LLM 加速器设计 | AI 编译器(HLS) | FPGA 推理加速

学术会议与期刊

会议 NeurIPS ICML ICLR CVPR ICCV ACL EMNLP AAAI MLSys OSDI
期刊 JMLR TPAMI Nature Machine Intelligence

毕业去向

企业

科研院所

相关科普

论文推荐

待补充

欢迎推荐该方向的入门综述或经典论文,参与建设 →