AI算法与系统
研究让机器更聪明的算法与系统基础,包括强化学习、大语言模型、AI Agent,以及让这些算法在真实系统上高效运行的软硬件基础设施。
这个方向在研究什么
2024 年 7 月,OpenAI 披露了一份内部 AGI 路线图,把 AI 的发展分成五级:
- L1:对话型(自然语言交互)
- L2:推理型(解博士级问题)
- L3:行动型(自主完成几小时到几天的多步任务)
- L4:创新型(协助发明)
- L5:组织型(替代整个组织)
思维链(Chain-of-Thought)让模型学会一步步推理,L2 如今已稳稳实现。最近一年,Claude Code 和 Codex 迅猛发展,如今的 AI 不仅能写出稳健的代码,还能轻松管理大型项目。L3 也基本实现。至于 L4,AI for Science 已经在蛋白质结构(AlphaFold)、新材料发现上大放异彩。从 2022 年至今,AI 的每一步跨越,都不是靠某个单点的高歌猛进。模型能力、系统效率、训练数据三者相互制约,需要同步推进。
早期,大家都信奉一个朴素真理——模型越大越聪明,这就是Scaling Law。ChatGPT 刚发布那段时间,参数规模、数据量、算力同步增加,模型能力持续提升。直到 Llama 3 的 4050 亿参数版本,Meta 动用 1.6 万张 H100 训了 54 天,继续扩大规模,提升越来越小。研究重心随之转向提高训练效率。MoE(Mixture of Experts,混合专家;如 DeepSeek-V3)把模型拆成一群”专家”,每次只激活一两个,让参数规模和计算成本脱钩。强化学习的作用同样关键。R1-Zero 只用少量”冷启动”数据引导模型写推理过程,其余由 RL 自主探索,思维链由此趋于稳定,也支撑了 L2 的实现。模型输入也从纯文本扩展到图像和视频,即多模态(multimodal;如 GPT-4V、Sora)。
实际部署中,LLM 遇到的主要瓶颈在系统的显存和带宽。注意力(Attention)机制需要序列内每个词两两交互,过程中产生大量中间矩阵,在显存(HBM)和计算核心之间反复传输,带宽消耗很大。上下文越长,需要缓存的 KV Cache(Key-Value Cache,键值缓存)越大,显存压力越重。Flash Attention 把注意力计算分块,数据从 HBM 取出后在片上完成计算再写回,大幅减少访存次数。vLLM 的 PagedAttention(分页注意力)借鉴虚拟内存的分页机制管理 KV Cache,提高显存利用率。量化针对另一类冗余。神经网络权重的数值分布集中在窄区间,从 32 位浮点压到 8 位甚至 4 位整数,精度损失极小。这条线最贴近硬件,微电子背景在这里有直接优势。在模型外套一层 Agent(智能体),通过控制框架引导模型调用工具、分步完成任务,模型的行动能力从单次推理扩展到多步操作,即 L3。Claude Code 等都属于这类工程实践。
算法和系统之外,训练数据的规模和质量同样决定模型上限。GPT-4、Llama 3 这个量级,训练数据在 10 到 15 万亿词(token),几乎覆盖了开放互联网上的高质量内容。公开数据目前已接近上限,新增来源主要有两类。一类是合成数据,用已有强模型生成新数据训练下一代,比如 Tesla 的 FSD 通过仿真生成暴雨夜驾、行人突然横穿等极端场景。另一类是专家精选数据,包括科学论文、专业推理过程标注,或专门为模型设计的高难度题库。
以上方向都还在 LLM 这条路上。LLM 的基本范式是否正确,本身存在争议。Yann LeCun 长期批评逐词预测的训练方式,认为模型学不到物理世界的规律。他主推的 JEPA(Joint-Embedding Predictive Architecture,联合嵌入预测架构)让模型预测视频中被遮住部分的高层语义(”这是个球,正在落地”),而不是逐像素还原。神经符号(Neuro-symbolic)则尝试把神经网络的感知能力和符号系统的严格推理结合起来。这些方向目前都在发展,尚无明显定论。
把越来越多的决策交给模型,前提是能解释它的行为,也能约束它的边界。2026 年 2 月的中东战事里,Claude 把伊朗的一所小学误标成军火库,导致美军误炸,156 条无辜生命遇难。同类的还有越狱攻击、ChatGPT 写法律文书时引用根本不存在的判例被法庭处罚。AI 安全就是给模型划定可控的行为边界,比如 Anthropic 的宪法 AI(Constitutional AI)让模型按一组原则边生成边自检。可解释性的目标是弄清楚模型内部在做什么。LLM 的工作原理对人类来说至今基本不透明,权重矩阵的每次运算背后的语义尚不清楚。稀疏自编码器(Sparse Autoencoder, SAE)能从大模型的中间表征中识别出”概念神经元”,某个神经元的激活恰好对应”金门大桥”或”代码里的 bug”,是目前可解释性研究中少数有具体发现的方向。
前沿大模型的训练目前集中在少数大厂。成本是门槛之一,单次训练在 1 亿美元量级,但更难复制的壁垒是私有数据和算力。开放互联网的数据大家都能用,而 Google 的搜索行为、Meta 的社交内容、字节的视频互动这类私有数据只有大厂自己有,直接决定模型在真实任务上的能力上限。算力也一样,顶级大模型需要万卡级数据中心,背后是电力、液冷、高速互联,高校难以独立建设。但学术界并没有被完全排除在外,在大厂开源模型底座(Llama、DeepSeek)后,学术界可以在后训练、推理优化、可解释性等方向深入,产出的成果再被工业界采用。像Flash Attention 出自 Stanford,vLLM 出自 UC Berkeley,AWQ 出自 MIT,这些工作后来都被大厂的推理引擎采用。
核心研究问题
- 模型架构与数据效率:纯扩大参数规模已遇到边际递减,MoE 把参数规模和算力解耦但路由与稀疏激活尚未解决,公开高质量语料接近耗尽、合成数据存在退化风险,新架构和数据工程需要同步推进。
- 强化学习与后训练:R1-Zero 式 RL 撑起了思维链推理,但奖励设计、训练稳定性、对齐和样本效率都不成熟。
- Agent 与多智能体:agent 把推理变成对外界的多步操作,长任务里错误一路累积,多个角色怎么分工、错误怎么发现和回滚,方法还不成型。
- 训练与 serving 系统:万卡集群上的并行训练、低成本 LLM serving、端边云推理调度,要在带宽、显存、通信之间反复权衡。
- 高效推理与量化:上下文越长 KV Cache 越吃显存,Flash Attention 靠片上分块减少访存、量化把权重压到 4 位精度损失极小,但哪些权重该保精度、加速器和编译器如何充分利用这部分加速效果,是软硬协同的难题。
- 多模态:从纯文本走向理解图像视频,视觉-语言基础模型怎么对齐不同模态、又不丢失各自的信息。
- 可解释性与 AI 安全:把更多决策交给模型,得靠稀疏自编码器这类工具看清内部在做什么,再用宪法 AI 一类机制划出可控的行为边界。
- LLM 之外的范式:LeCun 的 JEPA 和 Neuro-symbolic 质疑 token 级预测学不到世界规律,世界模型与符号推理的融合是另一条在走的路。
知识路径
数学三件套(线性代数 + 微积分/分析 + 概率统计)是算法线入口,优化理论贯穿整个训练流程;系统线(体系结构 + 并行 + 编译)和算法线在 AI 系统汇合。节点对应学习地图里的目录:
graph LR
代数[代数] --> ML[机器学习]
分析[分析] --> ML
分析 --> PROB[概率与统计]
代数 --> PROB
分析 --> OPT[数值与优化]
代数 --> OPT
PROB --> ML
OPT --> ML
PY[编程入门] --> ML
PY --> SYS
ML --> MLT[机器学习理论]
ML --> DL[深度学习]
ML --> RL[强化学习]
DL --> LLM[大语言模型]
DL --> GEN[深度生成模型]
DL --> RL
DL --> AIS[AI系统]
LLM --> AIS
SYS[计算机系统基础] --> ARCH[体系结构]
ARCH --> GPU[GPU体系结构]
ARCH --> PAR[并行与分布式系统]
ARCH --> COMP[编译原理]
GPU --> AIS
PAR --> AIS
COMP --> AIS
AIS --> X[AI算法与系统]
LLM --> X
GEN --> X
RL --> X
MLT --> X
classDef math fill:#EBF4FF,stroke:#2C5282
classDef ai fill:#F0FDF4,stroke:#16A34A
classDef sys fill:#FFFBEB,stroke:#B7791F
classDef goal fill:#F1F5F9,stroke:#64748B,stroke-width:2px
class 代数,分析,PROB,OPT,PY math
class ML,MLT,DL,LLM,GEN,RL,AIS ai
class SYS,ARCH,GPU,PAR,COMP sys
class X goal
- 数学:代数(线性代数、矩阵分析) · 分析(微积分、实分析) · 概率与统计 · 数值与优化(梯度下降、凸优化)
- 算法编程:编程入门(Python)
- 人工智能:机器学习 · 机器学习理论 · 深度学习 · 大语言模型 · 深度生成模型 · 强化学习 · AI系统
- 系统架构:计算机系统基础 · 体系结构 · GPU体系结构 · 并行与分布式系统 · 编译原理
这个方向适合谁
适合真心对“让模型更聪明、更高效”有热情的人。在集成电路各方向里,这个方向与 AI 的距离最近。如果做纯算法,那迭代节奏极快,成果挂 arXiv,论文周期短、迭代快,今天的 SOTA 三个月后就被超越,跟得上会兴奋,跟不上会焦虑。日常就是写 PyTorch、改模型、在 GPU 集群上排队跑实验。如果结合系统和硬件架构,则属于 AI Infra,非常适合微电子出身的同学。系统侧,量化、推理优化这些贴近硬件的工作,微电子背景能从访存带宽理解其节省的来源,纯软件出身的人未必有这个直觉;越往纯算法和理论走,数学要求越重,需要专门投入时间补足,难以靠硬件直觉弥补。
学术界
课题组
境内
-
马恺声 清华
LLM 高效推理 | 算法架构协同设计 | Chiplet 大模型加速器
-
高鸣宇 清华
稀疏注意力优化 | 私有推理架构 | 稀疏张量加速器
-
朱军 清华
生成模型 | 扩散模型加速 | 低精度推理
-
唐杰 清华
大模型预训练 | 高效微调 | 分布式训练
-
刘知远 清华
大语言模型 | 模型压缩蒸馏 | 高效推理
-
陈键飞 清华
模型量化训练 | 稀疏剪枝 | 低比特大模型
-
曹婷 清华
端侧 LLM 推理 | 量化压缩 | AI 加速器
-
邱锡鹏 复旦
大模型高效训练 | 长上下文推理 | 稀疏化与压缩
-
陈涛 复旦
视觉大模型压缩 | 量化与剪枝加速 | 边缘高效推理
-
崔斌 北大
分布式大模型训练 | 异构集群并行策略 | LLM 推理加速
-
杨耀东 北大
大模型对齐训练 | 强化学习后训练 | 多智能体系统
-
谢洪 中科大
大模型强化微调 | 智能体规划与世界模型 | 科学智能
-
康奇宇 中科大
大模型量化与高效推理 | 物理信息神经网络 | 多模态大模型
-
陈云霁 中科院
神经网络专用处理器 | AI 编译器与算子生成 | 芯片设计自动化
-
陈全 交大
DNN 推理系统 | 异构硬件调度 | AI 编译与加速
-
蒋力 交大
AI 专用处理器与编译器 | 神经网络压缩量化 | 存内计算架构
-
张伟楠 交大
大模型强化学习对齐 | 多智能体协作 | 具身与 GUI Agent
-
温颖 交大
多智能体强化学习 | LLM Agent 决策 | 长时序信用分配
-
刘鹏飞 交大
大模型复杂推理(o1 复现)· 预训练数据工程 | 多模态生成大模型
-
张拳石 交大
神经网络可解释性(XAI 理论)· LLM 推理机制分析 | 深度学习泛化理论
-
高阳 南大
强化学习 | 多智能体学习 | 大模型推理与 Agent
-
周志华 南大
机器学习理论 | 集成学习 | 弱监督学习
-
吴飞 浙大
大模型指令微调 | 多模态大模型 | AI 系统与开放平台
-
周军 成电
超低功耗 AI 芯片 | 算法-芯片协同设计 | 智能感知终端
-
刘洋 成电
AI 芯片 | 忆阻器和神经网络 | 集成电路设计
境外
-
Tao Yu(余涛) 港大
LLM Agent | 代码生成(Spider/SWE)· 计算机使用智能体(OSWorld)
-
Kai Chen(陈凯) 港科大
分布式训练网络 | AI 集群调度 | 高性能互联
-
模型压缩与量化 | 高效深度学习 | 联邦学习
-
Xiaowen Chu(褚晓文) 港科大
稀疏 LLM 推理系统 | KV 缓存压缩 | MoE 分布式训练
-
Tianqi Chen(陈天奇) CMU
AI 编译器(TVM/Apache MXNet)· LLM 全平台部署(MLC-LLM)· ML 系统全栈
-
Zhihao Jia(贾志豪) CMU
LLM 推理加速 | GPU 算子编译优化 | 分布式训练并行化
-
Graham Neubig CMU
LLM Agent 系统 | 代码生成与软件工程 | 多语言 NLP
-
Beidi Chen(陈贝迪) CMU
高效 LLM 推理 | 上下文稀疏性(Deja Vu) | 单卡推理(FlexGen)
-
Vijay Janapa Reddi Harvard
边缘 AI 推理 | TinyML 系统 | MLPerf 基准测试
-
Song Han(韩松) MIT
LLM 量化与压缩(AWQ/SmoothQuant)· 高效推理与稀疏注意力 | 端侧大模型部署
-
Vivienne Sze(施) MIT
神经网络加速器设计 | 稀疏计算加速(Eyeriss/HighLight)· 硬件-算法协同优化
-
Danqi Chen(陈丹琦) Princeton
大语言模型训练 | 长上下文推理 | 对齐与强化学习
-
Karthik Narasimhan Princeton
LLM Agent | 推理框架(ReAct/ToT) | 代码自动化(SWE-agent)
-
Percy Liang(梁) Stanford
大模型从头训练 | 基础模型评测(HELM)· AI 系统基础设施
-
Fei-Fei Li(李飞飞) Stanford
视觉语言基础模型 | 空间智能与 3D 理解 | 具身 AI 系统
-
Emma Brunskill Stanford
强化学习 | RL 调优 LLM | 教育医疗决策
-
Ion Stoica UC Berkeley
LLM 推理服务(vLLM)· 多云分布式 AI 调度 | 开放评测平台
-
Matei Zaharia UC Berkeley
LLM 程序优化(DSPy)· 稀疏 MoE 训练 | 分布式数据与 ML 运行时
-
Joseph Gonzalez UC Berkeley
LLM serving(SGLang/vLLM)· LLM Agent 与 API 调用 | 边缘端模型部署
-
Pieter Abbeel UC Berkeley
视觉语言模型操控 | 机器人世界模型 | 从视频学习策略
-
Sergey Levine UC Berkeley
大模型机器人策略 | 离线强化学习 | 语言条件控制
-
Yi Ma(马毅) UC Berkeley
白盒 Transformer 理论 | 稀疏率压缩表示 | 可解释深度学习
-
Yuandong Tian(田渊栋) Meta FAIR
训练内存优化(GaLore) | LLM 量化与推理加速 | 隐空间推理(Coconut)
-
Deming Chen(陈德铭) UIUC
LLM 加速器设计 | AI 编译器(HLS) | FPGA 推理加速
学术会议与期刊
毕业去向
企业
科研院所
相关科普
论文推荐
待补充
欢迎推荐该方向的入门综述或经典论文,参与建设 →