存算一体与近存计算

大模型推理时，数据搬运消耗的能量常常超过矩阵乘法本身。存算一体（CIM / PIM）与近存计算（NMC / NMP）研究的，是能不能让计算直接在数据所在的地方发生。

这个方向在研究什么

冯·诺依曼架构（von Neumann architecture）在 1945 年把"计算单元和存储单元分开"定下来时，这是个优雅的设计，让两者各做各的专项。可它也埋下一个代价。数据得在存储和计算之间来回搬运，这件事本身就耗能量、耗时间。规模不大时代价不显眼，等 AI 把模型推到数百亿参数，它就藏不住了。一块 NVIDIA H100 的理论算力是每秒 990 TFLOPS（Tera Floating-Point Operations Per Second，每秒万亿次浮点运算；FP16 精度），片外内存带宽却只有约 3.35 TB/s。芯片大量时间不是在算，而是在等数据从内存传来。大模型推理时这道差距尤其刺眼，权重矩阵巨大、每个却只用一次，有效算力利用率有时不到三成。更突出的是能耗。有测量表明，H100 跑推理时，数据搬运消耗的能量比矩阵乘法本身还多。这不是工程师没优化好，而是冯·诺依曼架构埋下的物理代价。随着模型规模暴涨，它从一个学术话题变成了横在整个产业面前的根本瓶颈。出路其实只有一个方向，让计算离数据更近。而"近到什么程度"，拉出一条从保守到激进的谱系。

先说最保守的一步，近存计算（Near-Memory Computing, NMC；又称 Near-Memory Processing, NMP）。它不动存储阵列本身，只把计算逻辑紧贴着存储放，让数据少走几步路。其实把计算并进内存的想法 1970 年代就有，只是长期卡在逻辑和 DRAM 工艺不兼容，做不出又好又便宜的芯片。直到 3D 堆叠成熟，近存这条务实路线才真正量产落地。三星 2021 年的 HBM-PIM 就是这么干的，把计算单元集成进 HBM 的逻辑层，相对上一代拿到两倍以上吞吐、七成以上的能耗下降。SK Hynix 的 AiM 走的是同一条路。这些已经是能量产的产品，证明近存计算不只是实验室概念。它代价小、风险低，可收益也最有限，毕竟计算和存储还是分开的两家。

再往里走一步，把计算直接搬进存储阵列内部，这就是存算一体（Compute-in-Memory, CIM；又称 Process-in-Memory, PIM）。先看稳妥的数字路线 SRAM-CIM（Static RAM Compute-in-Memory）。在标准 SRAM 宏里加上计算逻辑，输入以电压注入整列，所有单元同时做乘法，列末端自然累加成一次向量内积。它用的是常规数字电路，精度可控，还能复用成熟的 EDA 流程，量产风险不大，能效比 GPU 提升大约三到五倍。2018 年前后，台湾清华大学张孟凡团队等就在 ISSCC 上发表了完整流片的 SRAM-CIM 芯片，把每次乘加的能耗从 GPU 的数十皮焦压到亚皮焦级。

最激进的是干脆让器件物理自己来算，这就是模拟路线，代表是用忆阻器（memristor；如 RRAM 阻变存储器、PCM 相变存储器）搭的存算阵列。这种器件的电阻能调、断电还记得住，正好拿来存神经网络的权重。给它加一个输入电压，流过的电流就是电压乘以电导，等于天然做了一次乘法，整列电流一汇合，基尔霍夫定律就替你把累加也做完了。一个器件同时管存储和计算，理论能效能比 GPU 高一两个数量级。代价也最高，主要有三个挑战。一是模拟量天生不准，器件制造偏差、电源噪声、温度漂移都会污染结果，稳下来的有效精度常常只有 4 到 6 位。二是阵列算出的是模拟电流，最后还得用 ADC 读回数字域，而高精度 ADC 又大又费电，常常把阵列省下的能量重新吃掉一大半。三是 RRAM、PCM 这些器件本身的成熟度和良率还不过关，难以放大成可量产的大阵列。

三条路激进程度不同，但都绕不开算法与硬件的联合设计。最典型的就是量化，让网络的精度需求主动去迁就电路的物理约束，能省多少电、精度掉几位，都在这里博弈。这是当前研究集中的地带，器件、电路、架构三种背景的人都能参与。至于最激进的模拟存内到底能不能成，不取决于架构，而取决于器件制造工艺能否成熟，ADDA 转换开销能否压下来。

核心研究问题

忆阻器器件的非理想性：RRAM、PCM、铁电这些可调电阻器件天然适合做模拟突触，但电阻的变异、漂移、可重复性卡在材料和器件层，难以放大成可流片的大阵列。
模拟与数字两条路线：模拟阵列用电流和基尔霍夫求和换来近百倍能效，但有效位常只有 4-6 位；数字 SRAM-CIM 精度可控、能复用成熟 EDA、量产风险低，却只省下几倍，两边都还拿不出压倒对方的证据。
ADC 与混合信号接口：模拟阵列算得再省，结果终归要被 ADC 读回数字域，高精度 ADC 的面积和功耗常反客为主，把阵列省下的能量重新吃掉。
近存计算的架构与编程模型：NMC/NMP 硬件已经量产，却缺编译器和运行时让上层应用透明用上这份近存算力，稀疏负载怎么映射也没有好办法。
量化算法与硬件协同：让存储阵列拓扑和电路物理约束反过来指导量化策略与网络结构，器件、电路、架构三种背景都能从这里进场。
三维异质集成：单层阵列容量有限，要把存算阵列与逻辑层垂直堆叠、用先进封装把存储贴到计算近旁，单元级的能效收益才能放大到系统规模。
感存算一体：让传感、存储、计算在同一阵列里合一，信号刚被感知就地处理，免去从传感器到芯片的搬运，仿视网膜的事件视觉是典型应用。

知识路径

器件线（物理→存储器）提供存储单元，数字/模拟电路实现原位计算，AI 和体系结构线提供算法需求，编译器把网络映射到阵列上，几路在方向本体汇合。节点对应学习地图里的目录：

graph LR
    AN[分析] --> PHY[大学物理]
    DS[代数] --> QM
    PHY --> QM[量子力学]
    QM --> SS[固体物理]
    SS --> SP[半导体物理]
    SP --> DEV[半导体器件]
    MAT[材料] --> MEM
    MAT --> DEV
    MAT --> PRO
    DEV --> MEM[存储器]
    DEV --> PRO
    PRO[集成电路工艺] --> MEM
    AN --> PROB
    DS --> PROB
    PROB[概率与统计] --> ML[机器学习]
    DS --> ML
    ML --> DL[深度学习]
    SYS[计算机系统基础] --> ARCH[体系结构]
    ARCH --> ACC[AI加速器]
    ARCH --> COM
    DL --> ACC
    MEM --> X[存算一体与近存计算]
    DIG[数字设计] --> X
    DEV --> MAS
    MAS[模拟与射频] --> X
    ACC --> X
    COM[编译原理] --> X

    classDef math fill:#EBF4FF,stroke:#2C5282
    classDef phys fill:#F3E8FF,stroke:#553C9A
    classDef dev fill:#FDE8D8,stroke:#C0530A
    classDef sys fill:#FFFBEB,stroke:#B7791F
    classDef ai fill:#F0FDF4,stroke:#16A34A
    classDef goal fill:#F1F5F9,stroke:#64748B,stroke-width:2px
    class AN,DS,PROB math
    class PHY,QM,SS,SP phys
    class DEV,MAT,PRO,MEM dev
    class DIG,MAS,SYS,ARCH,ACC,COM sys
    class ML,DL ai
    class X goal

数学：分析 · 代数（线性代数，量子力学和矩阵运算共同的语言） · 概率与统计
物理：大学物理 · 量子力学 · 固体物理 · 半导体物理
器件与工艺：半导体器件 · 材料 · 集成电路工艺 · 存储器
电路：模拟与射频（读出电路、模拟 MAC） · 数字设计
系统架构：计算机系统基础 · 体系结构 · 编译原理（网络到阵列的映射工具链） · AI加速器
人工智能：机器学习 · 深度学习

这个方向适合谁

这个方向天然跨层，器件、电路、架构、算法相互牵制，适合愿意同时兼顾多个层面的人。几条技术路线对应不同的专长。偏体系结构与系统的，可以研究近存计算的架构与编程模型，让上层应用高效利用近存算力；擅长数字电路与 EDA 的，适合数字存内（SRAM-CIM），在精度可控的前提下提升能效；对模拟电路与器件感兴趣的，可以做 RRAM 交叉阵列，处理其中的噪声、ADC 开销与温度漂移。微电子本科在计算机组成、数字电路、模拟电路、器件物理中任意一门有扎实基础，都能找到对应的切入点。需要提醒的是，真正的难点常在跨层协同而非单一层面，更适合愿意理解相邻层约束、不排斥系统与物理工程细节的人。

学术界

课题组

境内

马恺声 清华

存算融合系统架构 | DNN 加速器片上通信 | AI 编译与硬件映射协同
高鸣宇 清华

近存计算架构 | 稀疏 AI 推理加速 | 安全计算硬件
邓宁清华

自旋转移矩存储器 | 阻变存储器件 | 新型非易失计算
尹首一 清华

晶圆级芯片 | 3D近存计算架构 | AI存内计算
南天翔 清华

MRAM存内计算 | 自旋轨道矩器件 | 磁电多铁异质结
吴华强 清华

忆阻器 RRAM 存内计算 | 模拟 CIM 芯片全栈设计 | 物理神经网络训练
钱鹤清华

SRAM/eDRAM 存算一体宏 | 通用神经网络推理芯片 | 多存储器混合 CIM 架构
唐建石 清华

RRAM 模拟存算一体芯片 | 储备池计算与神经形态 | 单片三维异质集成
高滨清华

忆阻器 CIM 芯片设计方法学 | 神经网络结构-硬件联合搜索 | RRAM 编程精度优化
薛晓勇 复旦

存算一体数模混合 IC | 近存计算软硬件协同 | DRAM/SSD 大容量存储
刘琦复旦

ReRAM 存内计算加速器 | RRAM-SRAM 协同推理 | 类脑神经形态芯片
周鹏复旦

二维半导体超快闪存 | 存内计算与感存算集成 | 仿视网膜感知芯片
蒋昊复旦

忆阻器与铁电 HZO 器件 | 存内计算与类脑计算 | 硬件安全 PUF/TRNG
黄张成 复旦

感算融合专用芯片 | 深低温电路设计
王明宇 复旦

智能感知处理芯片
解玉凤 复旦

存算一体芯片设计 | 阻变存储与计算加速
黄鹏北大

RRAM 存算一体芯片 | 感知-存储-计算融合 | CNN 与注意力推理加速
叶乐北大

存算一体 AI 芯片 | 3D 近存架构设计 | 模拟混合信号电路
孙仲北大

RRAM 模拟矩阵运算 | 无线通信信号处理 | 高精度存算一体
蔡一茂 北大

RRAM 忆阻器件 | 神经形态计算芯片 | 存算一体芯片设计
王宗巍 北大

RRAM 存内计算宏 | 稀疏 AI 推理加速 | 神经形态芯片
杨玉超 北大

忆阻器存算一体阵列 | 大规模 AI 推理芯片 | 神经形态计算
康一中科大

SRAM/非易失存内计算电路 | 模拟混合信号 CIM 宏 | AI 推理低功耗芯片
陈松中科大

PIM 加速器架构设计 | 位稀疏模型硬件协同 | 存算芯片 EDA 编译
李鹏中科大

自旋器件存算一体 | 神经形态电路芯片 | 量子传感器件
陈晓明 中科院

RRAM/FeFET 交叉阵列架构 | PIM 编译与自动生成 | 稀疏矩阵存内加速
窦春萌 中科院

RRAM 存算一体芯片 | 混合信号 AI 推理宏 | 近阈值低功耗计算
蒋力交大

RRAM/SRAM 存内计算加速器 | DRAM 近存计算架构 | 稀疏算法-架构协同
何卫锋 交大

SRAM 存内计算/近存计算芯片 | 高能效 AI 推理芯片 | 超低功耗亚阈值设计
孙亚男 交大

ReRAM/SRAM 混合存内计算 | 三维集成 CIM 架构 | Transformer/CNN 边缘加速器
缪峰南大

二维材料忆阻器器件 | 传感器内动态存内计算 | 铁电类脑神经形态芯片
王宇宣 南大

器件级存算一体加速 | 光电存算融合芯片 | 类脑神经网络硬件
司鑫东南大学

SRAM CIM/PIM 宏 | 存储器计算电路 | AI 边缘/推理芯片
张亦舒 浙大

RRAM/FeRAM 存算一体芯片 | 忆阻器安全加密原语 | 神经形态计算

境外

Ngai Wong（黃毅） 港大

忆阻器存算一体芯片 | 大模型推理加速 | 神经网络硬件量化
Can Li（李灿） 港大

忆阻器阵列 AI 芯片 | 神经形态组合优化 | 近存模拟计算
José Martínez Cornell

近存计算架构 | 存储层次设计 | 处理器-内存协同
Naveen Verma Princeton

SRAM 存算一体 | ML 加速器效率 | 计算-存储协同分析
H.-S. Philip Wong（黃漢森） Stanford

PCM/RRAM 存算一体 | 3D 异构集成芯片 | 非易失存储 AI 推理
Hai (Helen) Li (李海) & Yiran Chen (陈怡然) Duke

新型 NVM 存储器电路 | 存算一体系统 | DNN 压缩与 AI 硬件协同
Onur Mutlu ETH Zürich

近存计算架构 | DRAM/SSD 内处理 | 基因组加速
Shimeng Yu（余诗孟） Georgia Tech

RRAM/FeFET 存算器件 | 模拟存内计算 | 3D 集成 AI 推理
Kaushik Roy Purdue

模拟 CIM 加速器 | 脉冲神经网络 | 低功耗边缘 AI
Boris Murmann U Hawaii

阻变存储器 IMC | 边缘 AI 推理 | 混合信号接口设计
Tony Nowatzki UCLA

近存计算 | 空间数据流架构 | 芯粒近数据协同