AI算法与系统

研究让机器更聪明的算法与系统基础，包括强化学习、大语言模型、AI Agent，以及让这些算法在真实系统上高效运行的软硬件基础设施。

这个方向在研究什么

2024 年 7 月，OpenAI 披露了一份内部 AGI 路线图，把 AI 的发展分成五级：

L1：对话型(自然语言交互)
L2：推理型(解博士级问题)
L3：行动型(自主完成几小时到几天的多步任务)
L4：创新型(协助发明)
L5：组织型(替代整个组织)

思维链(Chain-of-Thought)让模型学会一步步推理，L2 如今已稳稳实现。最近一年，Claude Code 和 Codex 迅猛发展，如今的 AI 不仅能写出稳健的代码，还能轻松管理大型项目。L3 也基本实现。至于 L4，AI for Science 已经在蛋白质结构(AlphaFold)、新材料发现上大放异彩。从 2022 年至今，AI 的每一步跨越，都不是靠某个单点的高歌猛进。模型能力、系统效率、训练数据三者相互制约，需要同步推进。

早期，大家都信奉一个朴素真理——模型越大越聪明，这就是Scaling Law。ChatGPT 刚发布那段时间，参数规模、数据量、算力同步增加，模型能力持续提升。直到 Llama 3 的 4050 亿参数版本，Meta 动用 1.6 万张 H100 训了 54 天，继续扩大规模，提升越来越小。研究重心随之转向提高训练效率。MoE（Mixture of Experts，混合专家；如 DeepSeek-V3）把模型拆成一群”专家”，每次只激活一两个，让参数规模和计算成本脱钩。强化学习的作用同样关键。R1-Zero 只用少量”冷启动”数据引导模型写推理过程，其余由 RL 自主探索，思维链由此趋于稳定，也支撑了 L2 的实现。模型输入也从纯文本扩展到图像和视频，即多模态（multimodal；如 GPT-4V、Sora）。

实际部署中，LLM 遇到的主要瓶颈在系统的显存和带宽。注意力（Attention）机制需要序列内每个词两两交互，过程中产生大量中间矩阵，在显存（HBM）和计算核心之间反复传输，带宽消耗很大。上下文越长，需要缓存的 KV Cache（Key-Value Cache，键值缓存）越大，显存压力越重。Flash Attention 把注意力计算分块，数据从 HBM 取出后在片上完成计算再写回，大幅减少访存次数。vLLM 的 PagedAttention（分页注意力）借鉴虚拟内存的分页机制管理 KV Cache，提高显存利用率。量化针对另一类冗余。神经网络权重的数值分布集中在窄区间，从 32 位浮点压到 8 位甚至 4 位整数，精度损失极小。这条线最贴近硬件，微电子背景在这里有直接优势。在模型外套一层 Agent（智能体），通过控制框架引导模型调用工具、分步完成任务，模型的行动能力从单次推理扩展到多步操作，即 L3。Claude Code 等都属于这类工程实践。

算法和系统之外，训练数据的规模和质量同样决定模型上限。GPT-4、Llama 3 这个量级，训练数据在 10 到 15 万亿词（token），几乎覆盖了开放互联网上的高质量内容。公开数据目前已接近上限，新增来源主要有两类。一类是合成数据，用已有强模型生成新数据训练下一代，比如 Tesla 的 FSD 通过仿真生成暴雨夜驾、行人突然横穿等极端场景。另一类是专家精选数据，包括科学论文、专业推理过程标注，或专门为模型设计的高难度题库。

以上方向都还在 LLM 这条路上。LLM 的基本范式是否正确，本身存在争议。Yann LeCun 长期批评逐词预测的训练方式，认为模型学不到物理世界的规律。他主推的 JEPA（Joint-Embedding Predictive Architecture，联合嵌入预测架构）让模型预测视频中被遮住部分的高层语义（”这是个球，正在落地”），而不是逐像素还原。神经符号（Neuro-symbolic）则尝试把神经网络的感知能力和符号系统的严格推理结合起来。这些方向目前都在发展，尚无明显定论。

把越来越多的决策交给模型，前提是能解释它的行为，也能约束它的边界。2026 年 2 月的中东战事里，Claude 把伊朗的一所小学误标成军火库，导致美军误炸，156 条无辜生命遇难。同类的还有越狱攻击、ChatGPT 写法律文书时引用根本不存在的判例被法庭处罚。AI 安全就是给模型划定可控的行为边界，比如 Anthropic 的宪法 AI（Constitutional AI）让模型按一组原则边生成边自检。可解释性的目标是弄清楚模型内部在做什么。LLM 的工作原理对人类来说至今基本不透明，权重矩阵的每次运算背后的语义尚不清楚。稀疏自编码器（Sparse Autoencoder, SAE）能从大模型的中间表征中识别出”概念神经元”，某个神经元的激活恰好对应”金门大桥”或”代码里的 bug”，是目前可解释性研究中少数有具体发现的方向。

前沿大模型的训练目前集中在少数大厂。成本是门槛之一，单次训练在 1 亿美元量级，但更难复制的壁垒是私有数据和算力。开放互联网的数据大家都能用，而 Google 的搜索行为、Meta 的社交内容、字节的视频互动这类私有数据只有大厂自己有，直接决定模型在真实任务上的能力上限。算力也一样，顶级大模型需要万卡级数据中心，背后是电力、液冷、高速互联，高校难以独立建设。但学术界并没有被完全排除在外，在大厂开源模型底座（Llama、DeepSeek）后，学术界可以在后训练、推理优化、可解释性等方向深入，产出的成果再被工业界采用。像Flash Attention 出自 Stanford，vLLM 出自 UC Berkeley，AWQ 出自 MIT，这些工作后来都被大厂的推理引擎采用。

核心研究问题

模型架构与数据效率：纯扩大参数规模已遇到边际递减，MoE 把参数规模和算力解耦但路由与稀疏激活尚未解决，公开高质量语料接近耗尽、合成数据存在退化风险，新架构和数据工程需要同步推进。
强化学习与后训练：R1-Zero 式 RL 撑起了思维链推理，但奖励设计、训练稳定性、对齐和样本效率都不成熟。
Agent 与多智能体：agent 把推理变成对外界的多步操作，长任务里错误一路累积，多个角色怎么分工、错误怎么发现和回滚，方法还不成型。
训练与 serving 系统：万卡集群上的并行训练、低成本 LLM serving、端边云推理调度，要在带宽、显存、通信之间反复权衡。
高效推理与量化：上下文越长 KV Cache 越吃显存，Flash Attention 靠片上分块减少访存、量化把权重压到 4 位精度损失极小，但哪些权重该保精度、加速器和编译器如何充分利用这部分加速效果，是软硬协同的难题。
多模态：从纯文本走向理解图像视频，视觉-语言基础模型怎么对齐不同模态、又不丢失各自的信息。
可解释性与 AI 安全：把更多决策交给模型，得靠稀疏自编码器这类工具看清内部在做什么，再用宪法 AI 一类机制划出可控的行为边界。
LLM 之外的范式：LeCun 的 JEPA 和 Neuro-symbolic 质疑 token 级预测学不到世界规律，世界模型与符号推理的融合是另一条在走的路。

知识路径

数学三件套（线性代数 + 微积分/分析 + 概率统计）是算法线入口，优化理论贯穿整个训练流程；系统线（体系结构 + 并行 + 编译）和算法线在 AI 系统汇合。节点对应学习地图里的目录：

graph LR
    代数[代数] --> ML[机器学习]
    分析[分析] --> ML
    分析 --> PROB[概率与统计]
    代数 --> PROB
    分析 --> OPT[数值与优化]
    代数 --> OPT
    PROB --> ML
    OPT --> ML
    PY[编程入门] --> ML
    PY --> SYS
    ML --> MLT[机器学习理论]
    ML --> DL[深度学习]
    ML --> RL[强化学习]
    DL --> LLM[大语言模型]
    DL --> GEN[深度生成模型]
    DL --> RL
    DL --> AIS[AI系统]
    LLM --> AIS
    SYS[计算机系统基础] --> ARCH[体系结构]
    ARCH --> GPU[GPU体系结构]
    ARCH --> PAR[并行与分布式系统]
    ARCH --> COMP[编译原理]
    GPU --> AIS
    PAR --> AIS
    COMP --> AIS
    AIS --> X[AI算法与系统]
    LLM --> X
    GEN --> X
    RL --> X
    MLT --> X

    classDef math fill:#EBF4FF,stroke:#2C5282
    classDef ai fill:#F0FDF4,stroke:#16A34A
    classDef sys fill:#FFFBEB,stroke:#B7791F
    classDef goal fill:#F1F5F9,stroke:#64748B,stroke-width:2px
    class 代数,分析,PROB,OPT,PY math
    class ML,MLT,DL,LLM,GEN,RL,AIS ai
    class SYS,ARCH,GPU,PAR,COMP sys
    class X goal

数学：代数（线性代数、矩阵分析） · 分析（微积分、实分析） · 概率与统计 · 数值与优化（梯度下降、凸优化）
算法编程：编程入门（Python）
人工智能：机器学习 · 机器学习理论 · 深度学习 · 大语言模型 · 深度生成模型 · 强化学习 · AI系统
系统架构：计算机系统基础 · 体系结构 · GPU体系结构 · 并行与分布式系统 · 编译原理

这个方向适合谁

适合真心对“让模型更聪明、更高效”有热情的人。在集成电路各方向里，这个方向与 AI 的距离最近。如果做纯算法，那迭代节奏极快，成果挂 arXiv，论文周期短、迭代快，今天的 SOTA 三个月后就被超越，跟得上会兴奋，跟不上会焦虑。日常就是写 PyTorch、改模型、在 GPU 集群上排队跑实验。如果结合系统和硬件架构，则属于 AI Infra，非常适合微电子出身的同学。系统侧，量化、推理优化这些贴近硬件的工作，微电子背景能从访存带宽理解其节省的来源，纯软件出身的人未必有这个直觉；越往纯算法和理论走，数学要求越重，需要专门投入时间补足，难以靠硬件直觉弥补。

学术界

课题组

境内

马恺声 清华

LLM 高效推理 | 算法架构协同设计 | Chiplet 大模型加速器
高鸣宇 清华

稀疏注意力优化 | 私有推理架构 | 稀疏张量加速器
朱军清华

生成模型 | 扩散模型加速 | 低精度推理
唐杰清华

大模型预训练 | 高效微调 | 分布式训练
刘知远 清华

大语言模型 | 模型压缩蒸馏 | 高效推理
陈键飞 清华

模型量化训练 | 稀疏剪枝 | 低比特大模型
曹婷清华

端侧 LLM 推理 | 量化压缩 | AI 加速器
邱锡鹏 复旦

大模型高效训练 | 长上下文推理 | 稀疏化与压缩
陈涛复旦

视觉大模型压缩 | 量化与剪枝加速 | 边缘高效推理
崔斌北大

分布式大模型训练 | 异构集群并行策略 | LLM 推理加速
杨耀东 北大

大模型对齐训练 | 强化学习后训练 | 多智能体系统
谢洪中科大

大模型强化微调 | 智能体规划与世界模型 | 科学智能
康奇宇 中科大

大模型量化与高效推理 | 物理信息神经网络 | 多模态大模型
陈云霁 中科院

神经网络专用处理器 | AI 编译器与算子生成 | 芯片设计自动化
陈全交大

DNN 推理系统 | 异构硬件调度 | AI 编译与加速
蒋力交大

AI 专用处理器与编译器 | 神经网络压缩量化 | 存内计算架构
张伟楠 交大

大模型强化学习对齐 | 多智能体协作 | 具身与 GUI Agent
温颖交大

多智能体强化学习 | LLM Agent 决策 | 长时序信用分配
刘鹏飞 交大

大模型复杂推理（o1 复现）· 预训练数据工程 | 多模态生成大模型
张拳石 交大

神经网络可解释性（XAI 理论）· LLM 推理机制分析 | 深度学习泛化理论
高阳南大

强化学习 | 多智能体学习 | 大模型推理与 Agent
周志华 南大

机器学习理论 | 集成学习 | 弱监督学习
吴飞浙大

大模型指令微调 | 多模态大模型 | AI 系统与开放平台
周军成电

超低功耗 AI 芯片 | 算法-芯片协同设计 | 智能感知终端
刘洋成电

AI 芯片 | 忆阻器和神经网络 | 集成电路设计

境外

Tao Yu（余涛） 港大

LLM Agent | 代码生成（Spider/SWE）· 计算机使用智能体（OSWorld）
Kai Chen（陈凯） 港科大

分布式训练网络 | AI 集群调度 | 高性能互联
James Tin Yau Kwok（郭天佑） 港科大

模型压缩与量化 | 高效深度学习 | 联邦学习
Xiaowen Chu（褚晓文） 港科大

稀疏 LLM 推理系统 | KV 缓存压缩 | MoE 分布式训练
Tianqi Chen（陈天奇） CMU

AI 编译器（TVM/Apache MXNet）· LLM 全平台部署（MLC-LLM）· ML 系统全栈
Zhihao Jia（贾志豪） CMU

LLM 推理加速 | GPU 算子编译优化 | 分布式训练并行化
Graham Neubig CMU

LLM Agent 系统 | 代码生成与软件工程 | 多语言 NLP
Beidi Chen（陈贝迪） CMU

高效 LLM 推理 | 上下文稀疏性（Deja Vu） | 单卡推理（FlexGen）
Vijay Janapa Reddi Harvard

边缘 AI 推理 | TinyML 系统 | MLPerf 基准测试
Song Han（韩松） MIT

LLM 量化与压缩（AWQ/SmoothQuant）· 高效推理与稀疏注意力 | 端侧大模型部署
Vivienne Sze（施） MIT

神经网络加速器设计 | 稀疏计算加速（Eyeriss/HighLight）· 硬件-算法协同优化
Danqi Chen（陈丹琦） Princeton

大语言模型训练 | 长上下文推理 | 对齐与强化学习
Karthik Narasimhan Princeton

LLM Agent | 推理框架（ReAct/ToT） | 代码自动化（SWE-agent）
Percy Liang（梁） Stanford

大模型从头训练 | 基础模型评测（HELM）· AI 系统基础设施
Fei-Fei Li（李飞飞） Stanford

视觉语言基础模型 | 空间智能与 3D 理解 | 具身 AI 系统
Emma Brunskill Stanford

强化学习 | RL 调优 LLM | 教育医疗决策
Ion Stoica UC Berkeley

LLM 推理服务（vLLM）· 多云分布式 AI 调度 | 开放评测平台
Matei Zaharia UC Berkeley

LLM 程序优化（DSPy）· 稀疏 MoE 训练 | 分布式数据与 ML 运行时
Joseph Gonzalez UC Berkeley

LLM serving（SGLang/vLLM）· LLM Agent 与 API 调用 | 边缘端模型部署
Pieter Abbeel UC Berkeley

视觉语言模型操控 | 机器人世界模型 | 从视频学习策略
Sergey Levine UC Berkeley

大模型机器人策略 | 离线强化学习 | 语言条件控制
Yi Ma（马毅） UC Berkeley

白盒 Transformer 理论 | 稀疏率压缩表示 | 可解释深度学习
Yuandong Tian（田渊栋） Meta FAIR

训练内存优化（GaLore） | LLM 量化与推理加速 | 隐空间推理（Coconut）
Deming Chen（陈德铭） UIUC

LLM 加速器设计 | AI 编译器（HLS） | FPGA 推理加速