存算一体与近存计算
大模型推理时,数据搬运消耗的能量常常超过矩阵乘法本身。存算一体(CIM / PIM)与近存计算(NMC / NMP)研究的,是能不能让计算直接在数据所在的地方发生。
这个方向在研究什么
冯·诺依曼架构(von Neumann architecture)在 1945 年把"计算单元和存储单元分开"定下来时,这是个优雅的设计,让两者各做各的专项。可它也埋下一个代价。数据得在存储和计算之间来回搬运,这件事本身就耗能量、耗时间。规模不大时代价不显眼,等 AI 把模型推到数百亿参数,它就藏不住了。一块 NVIDIA H100 的理论算力是每秒 990 TFLOPS(Tera Floating-Point Operations Per Second,每秒万亿次浮点运算;FP16 精度),片外内存带宽却只有约 3.35 TB/s。芯片大量时间不是在算,而是在等数据从内存传来。大模型推理时这道差距尤其刺眼,权重矩阵巨大、每个却只用一次,有效算力利用率有时不到三成。更突出的是能耗。有测量表明,H100 跑推理时,数据搬运消耗的能量比矩阵乘法本身还多。这不是工程师没优化好,而是冯·诺依曼架构埋下的物理代价。随着模型规模暴涨,它从一个学术话题变成了横在整个产业面前的根本瓶颈。出路其实只有一个方向,让计算离数据更近。而"近到什么程度",拉出一条从保守到激进的谱系。
先说最保守的一步,近存计算(Near-Memory Computing, NMC;又称 Near-Memory Processing, NMP)。它不动存储阵列本身,只把计算逻辑紧贴着存储放,让数据少走几步路。其实把计算并进内存的想法 1970 年代就有,只是长期卡在逻辑和 DRAM 工艺不兼容,做不出又好又便宜的芯片。直到 3D 堆叠成熟,近存这条务实路线才真正量产落地。三星 2021 年的 HBM-PIM 就是这么干的,把计算单元集成进 HBM 的逻辑层,相对上一代拿到两倍以上吞吐、七成以上的能耗下降。SK Hynix 的 AiM 走的是同一条路。这些已经是能量产的产品,证明近存计算不只是实验室概念。它代价小、风险低,可收益也最有限,毕竟计算和存储还是分开的两家。
再往里走一步,把计算直接搬进存储阵列内部,这就是存算一体(Compute-in-Memory, CIM;又称 Process-in-Memory, PIM)。先看稳妥的数字路线 SRAM-CIM(Static RAM Compute-in-Memory)。在标准 SRAM 宏里加上计算逻辑,输入以电压注入整列,所有单元同时做乘法,列末端自然累加成一次向量内积。它用的是常规数字电路,精度可控,还能复用成熟的 EDA 流程,量产风险不大,能效比 GPU 提升大约三到五倍。2018 年前后,台湾清华大学张孟凡团队等就在 ISSCC 上发表了完整流片的 SRAM-CIM 芯片,把每次乘加的能耗从 GPU 的数十皮焦压到亚皮焦级。
最激进的是干脆让器件物理自己来算,这就是模拟路线,代表是用忆阻器(memristor;如 RRAM 阻变存储器、PCM 相变存储器)搭的存算阵列。这种器件的电阻能调、断电还记得住,正好拿来存神经网络的权重。给它加一个输入电压,流过的电流就是电压乘以电导,等于天然做了一次乘法,整列电流一汇合,基尔霍夫定律就替你把累加也做完了。一个器件同时管存储和计算,理论能效能比 GPU 高一两个数量级。代价也最高,主要有三个挑战。一是模拟量天生不准,器件制造偏差、电源噪声、温度漂移都会污染结果,稳下来的有效精度常常只有 4 到 6 位。二是阵列算出的是模拟电流,最后还得用 ADC 读回数字域,而高精度 ADC 又大又费电,常常把阵列省下的能量重新吃掉一大半。三是 RRAM、PCM 这些器件本身的成熟度和良率还不过关,难以放大成可量产的大阵列。
三条路激进程度不同,但都绕不开算法与硬件的联合设计。最典型的就是量化,让网络的精度需求主动去迁就电路的物理约束,能省多少电、精度掉几位,都在这里博弈。这是当前研究集中的地带,器件、电路、架构三种背景的人都能参与。至于最激进的模拟存内到底能不能成,不取决于架构,而取决于器件制造工艺能否成熟,ADDA 转换开销能否压下来。
核心研究问题
- 忆阻器器件的非理想性:RRAM、PCM、铁电这些可调电阻器件天然适合做模拟突触,但电阻的变异、漂移、可重复性卡在材料和器件层,难以放大成可流片的大阵列。
- 模拟与数字两条路线:模拟阵列用电流和基尔霍夫求和换来近百倍能效,但有效位常只有 4-6 位;数字 SRAM-CIM 精度可控、能复用成熟 EDA、量产风险低,却只省下几倍,两边都还拿不出压倒对方的证据。
- ADC 与混合信号接口:模拟阵列算得再省,结果终归要被 ADC 读回数字域,高精度 ADC 的面积和功耗常反客为主,把阵列省下的能量重新吃掉。
- 近存计算的架构与编程模型:NMC/NMP 硬件已经量产,却缺编译器和运行时让上层应用透明用上这份近存算力,稀疏负载怎么映射也没有好办法。
- 量化算法与硬件协同:让存储阵列拓扑和电路物理约束反过来指导量化策略与网络结构,器件、电路、架构三种背景都能从这里进场。
- 三维异质集成:单层阵列容量有限,要把存算阵列与逻辑层垂直堆叠、用先进封装把存储贴到计算近旁,单元级的能效收益才能放大到系统规模。
- 感存算一体:让传感、存储、计算在同一阵列里合一,信号刚被感知就地处理,免去从传感器到芯片的搬运,仿视网膜的事件视觉是典型应用。
知识路径
器件线(物理→存储器)提供存储单元,数字/模拟电路实现原位计算,AI 和体系结构线提供算法需求,编译器把网络映射到阵列上,几路在方向本体汇合。节点对应学习地图里的目录:
graph LR
AN[分析] --> PHY[大学物理]
DS[代数] --> QM
PHY --> QM[量子力学]
QM --> SS[固体物理]
SS --> SP[半导体物理]
SP --> DEV[半导体器件]
MAT[材料] --> MEM
MAT --> DEV
MAT --> PRO
DEV --> MEM[存储器]
DEV --> PRO
PRO[集成电路工艺] --> MEM
AN --> PROB
DS --> PROB
PROB[概率与统计] --> ML[机器学习]
DS --> ML
ML --> DL[深度学习]
SYS[计算机系统基础] --> ARCH[体系结构]
ARCH --> ACC[AI加速器]
ARCH --> COM
DL --> ACC
MEM --> X[存算一体与近存计算]
DIG[数字设计] --> X
DEV --> MAS
MAS[模拟与射频] --> X
ACC --> X
COM[编译原理] --> X
classDef math fill:#EBF4FF,stroke:#2C5282
classDef phys fill:#F3E8FF,stroke:#553C9A
classDef dev fill:#FDE8D8,stroke:#C0530A
classDef sys fill:#FFFBEB,stroke:#B7791F
classDef ai fill:#F0FDF4,stroke:#16A34A
classDef goal fill:#F1F5F9,stroke:#64748B,stroke-width:2px
class AN,DS,PROB math
class PHY,QM,SS,SP phys
class DEV,MAT,PRO,MEM dev
class DIG,MAS,SYS,ARCH,ACC,COM sys
class ML,DL ai
class X goal
- 数学:分析 · 代数(线性代数,量子力学和矩阵运算共同的语言) · 概率与统计
- 物理:大学物理 · 量子力学 · 固体物理 · 半导体物理
- 器件与工艺:半导体器件 · 材料 · 集成电路工艺 · 存储器
- 电路:模拟与射频(读出电路、模拟 MAC) · 数字设计
- 系统架构:计算机系统基础 · 体系结构 · 编译原理(网络到阵列的映射工具链) · AI加速器
- 人工智能:机器学习 · 深度学习
这个方向适合谁
这个方向天然跨层,器件、电路、架构、算法相互牵制,适合愿意同时兼顾多个层面的人。几条技术路线对应不同的专长。偏体系结构与系统的,可以研究近存计算的架构与编程模型,让上层应用高效利用近存算力;擅长数字电路与 EDA 的,适合数字存内(SRAM-CIM),在精度可控的前提下提升能效;对模拟电路与器件感兴趣的,可以做 RRAM 交叉阵列,处理其中的噪声、ADC 开销与温度漂移。微电子本科在计算机组成、数字电路、模拟电路、器件物理中任意一门有扎实基础,都能找到对应的切入点。需要提醒的是,真正的难点常在跨层协同而非单一层面,更适合愿意理解相邻层约束、不排斥系统与物理工程细节的人。
学术界
课题组
境内
-
马恺声 清华
存算融合系统架构 | DNN 加速器片上通信 | AI 编译与硬件映射协同
-
高鸣宇 清华
近存计算架构 | 稀疏 AI 推理加速 | 安全计算硬件
-
邓宁 清华
自旋转移矩存储器 | 阻变存储器件 | 新型非易失计算
-
尹首一 清华
晶圆级芯片 | 3D近存计算架构 | AI存内计算
-
南天翔 清华
MRAM存内计算 | 自旋轨道矩器件 | 磁电多铁异质结
-
吴华强 清华
忆阻器 RRAM 存内计算 | 模拟 CIM 芯片全栈设计 | 物理神经网络训练
-
钱鹤 清华
SRAM/eDRAM 存算一体宏 | 通用神经网络推理芯片 | 多存储器混合 CIM 架构
-
唐建石 清华
RRAM 模拟存算一体芯片 | 储备池计算与神经形态 | 单片三维异质集成
-
高滨 清华
忆阻器 CIM 芯片设计方法学 | 神经网络结构-硬件联合搜索 | RRAM 编程精度优化
-
薛晓勇 复旦
存算一体数模混合 IC | 近存计算软硬件协同 | DRAM/SSD 大容量存储
-
刘琦 复旦
ReRAM 存内计算加速器 | RRAM-SRAM 协同推理 | 类脑神经形态芯片
-
周鹏 复旦
二维半导体超快闪存 | 存内计算与感存算集成 | 仿视网膜感知芯片
-
蒋昊 复旦
忆阻器与铁电 HZO 器件 | 存内计算与类脑计算 | 硬件安全 PUF/TRNG
-
黄张成 复旦
感算融合专用芯片 | 深低温电路设计
-
王明宇 复旦
智能感知处理芯片
-
解玉凤 复旦
存算一体芯片设计 | 阻变存储与计算加速
-
黄鹏 北大
RRAM 存算一体芯片 | 感知-存储-计算融合 | CNN 与注意力推理加速
-
叶乐 北大
存算一体 AI 芯片 | 3D 近存架构设计 | 模拟混合信号电路
-
孙仲 北大
RRAM 模拟矩阵运算 | 无线通信信号处理 | 高精度存算一体
-
蔡一茂 北大
RRAM 忆阻器件 | 神经形态计算芯片 | 存算一体芯片设计
-
王宗巍 北大
RRAM 存内计算宏 | 稀疏 AI 推理加速 | 神经形态芯片
-
杨玉超 北大
忆阻器存算一体阵列 | 大规模 AI 推理芯片 | 神经形态计算
-
康一 中科大
SRAM/非易失存内计算电路 | 模拟混合信号 CIM 宏 | AI 推理低功耗芯片
-
陈松 中科大
PIM 加速器架构设计 | 位稀疏模型硬件协同 | 存算芯片 EDA 编译
-
李鹏 中科大
自旋器件存算一体 | 神经形态电路芯片 | 量子传感器件
-
陈晓明 中科院
RRAM/FeFET 交叉阵列架构 | PIM 编译与自动生成 | 稀疏矩阵存内加速
-
窦春萌 中科院
RRAM 存算一体芯片 | 混合信号 AI 推理宏 | 近阈值低功耗计算
-
蒋力 交大
RRAM/SRAM 存内计算加速器 | DRAM 近存计算架构 | 稀疏算法-架构协同
-
何卫锋 交大
SRAM 存内计算/近存计算芯片 | 高能效 AI 推理芯片 | 超低功耗亚阈值设计
-
孙亚男 交大
ReRAM/SRAM 混合存内计算 | 三维集成 CIM 架构 | Transformer/CNN 边缘加速器
-
缪峰 南大
二维材料忆阻器器件 | 传感器内动态存内计算 | 铁电类脑神经形态芯片
-
王宇宣 南大
器件级存算一体加速 | 光电存算融合芯片 | 类脑神经网络硬件
-
司鑫 东南大学
SRAM CIM/PIM 宏 | 存储器计算电路 | AI 边缘/推理芯片
-
张亦舒 浙大
RRAM/FeRAM 存算一体芯片 | 忆阻器安全加密原语 | 神经形态计算
境外
-
忆阻器存算一体芯片 | 大模型推理加速 | 神经网络硬件量化
-
Can Li(李灿) 港大
忆阻器阵列 AI 芯片 | 神经形态组合优化 | 近存模拟计算
-
José Martínez Cornell
近存计算架构 | 存储层次设计 | 处理器-内存协同
-
Naveen Verma Princeton
SRAM 存算一体 | ML 加速器效率 | 计算-存储协同分析
-
H.-S. Philip Wong(黃漢森) Stanford
PCM/RRAM 存算一体 | 3D 异构集成芯片 | 非易失存储 AI 推理
-
Hai (Helen) Li (李海) & Yiran Chen (陈怡然) Duke
新型 NVM 存储器电路 | 存算一体系统 | DNN 压缩与 AI 硬件协同
-
Onur Mutlu ETH Zürich
近存计算架构 | DRAM/SSD 内处理 | 基因组加速
-
Shimeng Yu(余诗孟) Georgia Tech
RRAM/FeFET 存算器件 | 模拟存内计算 | 3D 集成 AI 推理
-
Kaushik Roy Purdue
模拟 CIM 加速器 | 脉冲神经网络 | 低功耗边缘 AI
-
Boris Murmann U Hawaii
阻变存储器 IMC | 边缘 AI 推理 | 混合信号接口设计
-
Tony Nowatzki UCLA
近存计算 | 空间数据流架构 | 芯粒近数据协同
学术会议与期刊
毕业去向
企业
科研院所
相关科普
论文推荐
待补充
欢迎推荐该方向的入门综述或经典论文,参与建设 →