跳转至

存算一体与近存计算

大模型推理时,数据搬运消耗的能量常常超过矩阵乘法本身。存算一体(CIM / PIM)与近存计算(NMC / NMP)研究的,是能不能让计算直接在数据所在的地方发生。

集成电路科研方向全景图 ← 计算媒介更奇异 更贴近物理世界 → 量子 · 光子 存算 · 类脑 模拟 · 射频 数字计算 功率电子 传感 · 生物 · 机械 算法 / 应用 系统 / 软件 体系结构 电路 器件 量子计算 与量子芯片 光电子 与硅光集成 模拟与 混合信号IC 射频与 毫米波IC 类脑芯片 存算一体 与近存计算 硬件安全 与可信计算 AI 算法 与系统 处理器架构 与编译系统 可重构计算 与 FPGA 功率半导体 与宽禁带器件 具身智能 生物电子 与脑机接口 MEMS 与 微纳传感器 各方向通用 EDA 与设计自动化 先进封装与系统集成 半导体器件与先进工艺 数字 模拟 数字 / 模拟 交叉 存算一体 与近存计算

这个方向在研究什么

冯·诺依曼架构(von Neumann architecture)在 1945 年把"计算单元和存储单元分开"定下来时,这是个优雅的设计,让两者各做各的专项。可它也埋下一个代价。数据得在存储和计算之间来回搬运,这件事本身就耗能量、耗时间。规模不大时代价不显眼,等 AI 把模型推到数百亿参数,它就藏不住了。一块 NVIDIA H100 的理论算力是每秒 990 TFLOPS(Tera Floating-Point Operations Per Second,每秒万亿次浮点运算;FP16 精度),片外内存带宽却只有约 3.35 TB/s。芯片大量时间不是在算,而是在等数据从内存传来。大模型推理时这道差距尤其刺眼,权重矩阵巨大、每个却只用一次,有效算力利用率有时不到三成。更突出的是能耗。有测量表明,H100 跑推理时,数据搬运消耗的能量比矩阵乘法本身还多。这不是工程师没优化好,而是冯·诺依曼架构埋下的物理代价。随着模型规模暴涨,它从一个学术话题变成了横在整个产业面前的根本瓶颈。出路其实只有一个方向,让计算离数据更近。而"近到什么程度",拉出一条从保守到激进的谱系。

能效与代价随融合程度同步上升 横轴:计算与存储的融合程度递增(能效相对 GPU + HBM 系统) GPU + HBM 传统系统 · 冯·诺依曼 GPU HBM 长数据通路 计算与存储分离 相对能效 基准系统 数据搬运是瓶颈 近存计算 NMC / NMP DRAM 存储 计算逻辑层 逻辑紧贴存储 相对能效 ~2× 已量产 · 风险低 三星 HBM-PIM 数字存内 CIM / PIM SRAM 阵列做数字 MAC 相对能效 3–5× 精度可控 ISSCC 完整流片 模拟存内 CIM / PIM 交叉阵列 · 电流即乘加 器件物理直接乘加 理论峰值 10–100× 尚在研究阶段 精度·ADC·器件成熟度 能效 ↗ 1× → 10–100× 代价 ↗ 器件与 ADC 制约同步加剧 能效为相对 GPU + HBM 系统的量级示意,随精度与负载而变

先说最保守的一步,近存计算(Near-Memory Computing, NMC;又称 Near-Memory Processing, NMP)。它不动存储阵列本身,只把计算逻辑紧贴着存储放,让数据少走几步路。其实把计算并进内存的想法 1970 年代就有,只是长期卡在逻辑和 DRAM 工艺不兼容,做不出又好又便宜的芯片。直到 3D 堆叠成熟,近存这条务实路线才真正量产落地。三星 2021 年的 HBM-PIM 就是这么干的,把计算单元集成进 HBM 的逻辑层,相对上一代拿到两倍以上吞吐、七成以上的能耗下降。SK Hynix 的 AiM 走的是同一条路。这些已经是能量产的产品,证明近存计算不只是实验室概念。它代价小、风险低,可收益也最有限,毕竟计算和存储还是分开的两家。

再往里走一步,把计算直接搬进存储阵列内部,这就是存算一体(Compute-in-Memory, CIM;又称 Process-in-Memory, PIM)。先看稳妥的数字路线 SRAM-CIM(Static RAM Compute-in-Memory)。在标准 SRAM 宏里加上计算逻辑,输入以电压注入整列,所有单元同时做乘法,列末端自然累加成一次向量内积。它用的是常规数字电路,精度可控,还能复用成熟的 EDA 流程,量产风险不大,能效比 GPU 提升大约三到五倍。2018 年前后,台湾清华大学张孟凡团队等就在 ISSCC 上发表了完整流片的 SRAM-CIM 芯片,把每次乘加的能耗从 GPU 的数十皮焦压到亚皮焦级。

最激进的是干脆让器件物理自己来算,这就是模拟路线,代表是用忆阻器(memristor;如 RRAM 阻变存储器、PCM 相变存储器)搭的存算阵列。这种器件的电阻能调、断电还记得住,正好拿来存神经网络的权重。给它加一个输入电压,流过的电流就是电压乘以电导,等于天然做了一次乘法,整列电流一汇合,基尔霍夫定律就替你把累加也做完了。一个器件同时管存储和计算,理论能效能比 GPU 高一两个数量级。代价也最高,主要有三个挑战。一是模拟量天生不准,器件制造偏差、电源噪声、温度漂移都会污染结果,稳下来的有效精度常常只有 4 到 6 位。二是阵列算出的是模拟电流,最后还得用 ADC 读回数字域,而高精度 ADC 又大又费电,常常把阵列省下的能量重新吃掉一大半。三是 RRAM、PCM 这些器件本身的成熟度和良率还不过关,难以放大成可量产的大阵列。

三条路激进程度不同,但都绕不开算法与硬件的联合设计。最典型的就是量化,让网络的精度需求主动去迁就电路的物理约束,能省多少电、精度掉几位,都在这里博弈。这是当前研究集中的地带,器件、电路、架构三种背景的人都能参与。至于最激进的模拟存内到底能不能成,不取决于架构,而取决于器件制造工艺能否成熟,ADDA 转换开销能否压下来。

核心研究问题

  • 忆阻器器件的非理想性:RRAM、PCM、铁电这些可调电阻器件天然适合做模拟突触,但电阻的变异、漂移、可重复性卡在材料和器件层,难以放大成可流片的大阵列。
  • 模拟与数字两条路线:模拟阵列用电流和基尔霍夫求和换来近百倍能效,但有效位常只有 4-6 位;数字 SRAM-CIM 精度可控、能复用成熟 EDA、量产风险低,却只省下几倍,两边都还拿不出压倒对方的证据。
  • ADC 与混合信号接口:模拟阵列算得再省,结果终归要被 ADC 读回数字域,高精度 ADC 的面积和功耗常反客为主,把阵列省下的能量重新吃掉。
  • 近存计算的架构与编程模型:NMC/NMP 硬件已经量产,却缺编译器和运行时让上层应用透明用上这份近存算力,稀疏负载怎么映射也没有好办法。
  • 量化算法与硬件协同:让存储阵列拓扑和电路物理约束反过来指导量化策略与网络结构,器件、电路、架构三种背景都能从这里进场。
  • 三维异质集成:单层阵列容量有限,要把存算阵列与逻辑层垂直堆叠、用先进封装把存储贴到计算近旁,单元级的能效收益才能放大到系统规模。
  • 感存算一体:让传感、存储、计算在同一阵列里合一,信号刚被感知就地处理,免去从传感器到芯片的搬运,仿视网膜的事件视觉是典型应用。

知识路径

器件线(物理→存储器)提供存储单元,数字/模拟电路实现原位计算,AI 和体系结构线提供算法需求,编译器把网络映射到阵列上,几路在方向本体汇合。节点对应学习地图里的目录:

graph LR
    AN[分析] --> PHY[大学物理]
    DS[代数] --> QM
    PHY --> QM[量子力学]
    QM --> SS[固体物理]
    SS --> SP[半导体物理]
    SP --> DEV[半导体器件]
    MAT[材料] --> MEM
    MAT --> DEV
    MAT --> PRO
    DEV --> MEM[存储器]
    DEV --> PRO
    PRO[集成电路工艺] --> MEM
    AN --> PROB
    DS --> PROB
    PROB[概率与统计] --> ML[机器学习]
    DS --> ML
    ML --> DL[深度学习]
    SYS[计算机系统基础] --> ARCH[体系结构]
    ARCH --> ACC[AI加速器]
    ARCH --> COM
    DL --> ACC
    MEM --> X[存算一体与近存计算]
    DIG[数字设计] --> X
    DEV --> MAS
    MAS[模拟与射频] --> X
    ACC --> X
    COM[编译原理] --> X

    classDef math fill:#EBF4FF,stroke:#2C5282
    classDef phys fill:#F3E8FF,stroke:#553C9A
    classDef dev fill:#FDE8D8,stroke:#C0530A
    classDef sys fill:#FFFBEB,stroke:#B7791F
    classDef ai fill:#F0FDF4,stroke:#16A34A
    classDef goal fill:#F1F5F9,stroke:#64748B,stroke-width:2px
    class AN,DS,PROB math
    class PHY,QM,SS,SP phys
    class DEV,MAT,PRO,MEM dev
    class DIG,MAS,SYS,ARCH,ACC,COM sys
    class ML,DL ai
    class X goal

这个方向适合谁

这个方向天然跨层,器件、电路、架构、算法相互牵制,适合愿意同时兼顾多个层面的人。几条技术路线对应不同的专长。偏体系结构与系统的,可以研究近存计算的架构与编程模型,让上层应用高效利用近存算力;擅长数字电路与 EDA 的,适合数字存内(SRAM-CIM),在精度可控的前提下提升能效;对模拟电路与器件感兴趣的,可以做 RRAM 交叉阵列,处理其中的噪声、ADC 开销与温度漂移。微电子本科在计算机组成、数字电路、模拟电路、器件物理中任意一门有扎实基础,都能找到对应的切入点。需要提醒的是,真正的难点常在跨层协同而非单一层面,更适合愿意理解相邻层约束、不排斥系统与物理工程细节的人。

学术界

课题组

境内

  • 马恺声 清华

    存算融合系统架构 | DNN 加速器片上通信 | AI 编译与硬件映射协同

  • 高鸣宇 清华

    近存计算架构 | 稀疏 AI 推理加速 | 安全计算硬件

  • 邓宁 清华

    自旋转移矩存储器 | 阻变存储器件 | 新型非易失计算

  • 尹首一 清华

    晶圆级芯片 | 3D近存计算架构 | AI存内计算

  • 南天翔 清华

    MRAM存内计算 | 自旋轨道矩器件 | 磁电多铁异质结

  • 吴华强 清华

    忆阻器 RRAM 存内计算 | 模拟 CIM 芯片全栈设计 | 物理神经网络训练

  • 钱鹤 清华

    SRAM/eDRAM 存算一体宏 | 通用神经网络推理芯片 | 多存储器混合 CIM 架构

  • 唐建石 清华

    RRAM 模拟存算一体芯片 | 储备池计算与神经形态 | 单片三维异质集成

  • 高滨 清华

    忆阻器 CIM 芯片设计方法学 | 神经网络结构-硬件联合搜索 | RRAM 编程精度优化

  • 薛晓勇 复旦

    存算一体数模混合 IC | 近存计算软硬件协同 | DRAM/SSD 大容量存储

  • 刘琦 复旦

    ReRAM 存内计算加速器 | RRAM-SRAM 协同推理 | 类脑神经形态芯片

  • 周鹏 复旦

    二维半导体超快闪存 | 存内计算与感存算集成 | 仿视网膜感知芯片

  • 蒋昊 复旦

    忆阻器与铁电 HZO 器件 | 存内计算与类脑计算 | 硬件安全 PUF/TRNG

  • 黄张成 复旦

    感算融合专用芯片 | 深低温电路设计

  • 王明宇 复旦

    智能感知处理芯片

  • 解玉凤 复旦

    存算一体芯片设计 | 阻变存储与计算加速

  • 黄鹏 北大

    RRAM 存算一体芯片 | 感知-存储-计算融合 | CNN 与注意力推理加速

  • 叶乐 北大

    存算一体 AI 芯片 | 3D 近存架构设计 | 模拟混合信号电路

  • 孙仲 北大

    RRAM 模拟矩阵运算 | 无线通信信号处理 | 高精度存算一体

  • 蔡一茂 北大

    RRAM 忆阻器件 | 神经形态计算芯片 | 存算一体芯片设计

  • 王宗巍 北大

    RRAM 存内计算宏 | 稀疏 AI 推理加速 | 神经形态芯片

  • 杨玉超 北大

    忆阻器存算一体阵列 | 大规模 AI 推理芯片 | 神经形态计算

  • 康一 中科大

    SRAM/非易失存内计算电路 | 模拟混合信号 CIM 宏 | AI 推理低功耗芯片

  • 陈松 中科大

    PIM 加速器架构设计 | 位稀疏模型硬件协同 | 存算芯片 EDA 编译

  • 李鹏 中科大

    自旋器件存算一体 | 神经形态电路芯片 | 量子传感器件

  • 陈晓明 中科院

    RRAM/FeFET 交叉阵列架构 | PIM 编译与自动生成 | 稀疏矩阵存内加速

  • 窦春萌 中科院

    RRAM 存算一体芯片 | 混合信号 AI 推理宏 | 近阈值低功耗计算

  • 蒋力 交大

    RRAM/SRAM 存内计算加速器 | DRAM 近存计算架构 | 稀疏算法-架构协同

  • 何卫锋 交大

    SRAM 存内计算/近存计算芯片 | 高能效 AI 推理芯片 | 超低功耗亚阈值设计

  • 孙亚男 交大

    ReRAM/SRAM 混合存内计算 | 三维集成 CIM 架构 | Transformer/CNN 边缘加速器

  • 缪峰 南大

    二维材料忆阻器器件 | 传感器内动态存内计算 | 铁电类脑神经形态芯片

  • 王宇宣 南大

    器件级存算一体加速 | 光电存算融合芯片 | 类脑神经网络硬件

  • 司鑫 东南大学

    SRAM CIM/PIM 宏 | 存储器计算电路 | AI 边缘/推理芯片

  • 张亦舒 浙大

    RRAM/FeRAM 存算一体芯片 | 忆阻器安全加密原语 | 神经形态计算

境外

学术会议与期刊

会议 ISSCC IEDM VLSI Symposium ISCA MICRO HPCA DAC
期刊 IEEE JSSC IEEE TED IEEE TCAS-I/II Nature Electronics Nature Nanotechnology

毕业去向

企业

科研院所

相关科普

论文推荐

待补充

欢迎推荐该方向的入门综述或经典论文,参与建设 →