跳转至

类脑芯片

模仿大脑神经元的脉冲放电机制,设计比传统深度学习硬件更节能的类脑芯片。

集成电路科研方向全景图 ← 计算媒介更奇异 更贴近物理世界 → 量子 · 光子 存算 · 类脑 模拟 · 射频 数字计算 功率电子 传感 · 生物 · 机械 算法 / 应用 系统 / 软件 体系结构 电路 器件 量子计算 与量子芯片 光电子 与硅光集成 模拟与 混合信号IC 射频与 毫米波IC 类脑芯片 存算一体 与近存计算 硬件安全 与可信计算 AI 算法 与系统 处理器架构 与编译系统 可重构计算 与 FPGA 功率半导体 与宽禁带器件 具身智能 生物电子 与脑机接口 MEMS 与 微纳传感器 各方向通用 EDA 与设计自动化 先进封装与系统集成 半导体器件与先进工艺 数字 模拟 数字 / 模拟 交叉 类脑芯片

这个方向在研究什么

Yann LeCun 反复讲过这样一个对比:训练 GPT-3 一次的碳排放就有约 552 吨 CO₂,相当于 460 次旧金山到纽约的往返航班;而能完成相当复杂任务的人脑,全程只消耗 20 瓦上下。中间隔着几个数量级,这个差距大到不可能靠工艺迭代抹平。把工艺从 7nm 推到 2nm 能省一些,救不回这么大的缺口。要把能效逼近大脑这个量级,需要计算方式本身的改变。大脑节能,不是因为神经元工作得多快,而是因为绝大多数神经元绝大多数时候都在"沉睡",这便是"稀疏性"。视觉皮层、运动皮层里的神经元,只在某些条件被触发时才发出一个不到一毫秒的电脉冲(spike),然后回到静默,能量花在"实际发生的事件"上,不花在"电路规模"上。GPU 上的标准神经网络则不同:不管输入向量某个分量是 0 还是 0.7,矩阵乘法都把所有连接计算一遍,所有元素同步、稠密、不分轻重。这是个根本性的范式差异,类脑芯片这个方向就是从这里出发的。

① 传统神经网络(ANN) 0.8 0.3 0.9 0.2 0.7 输入 × W₁₁ W₁₂ W₁₃ W₂₁ W₂₂ W₂₃ W₃₁ W₃₂ W₃₃ W₄₁ W₄₂ W₄₃ W₅₁ W₅₂ W₅₃ 权重矩阵 = 0.6 0.4 0.8 输出 每层全量计算 | 功耗高 | GPU擅长 ② 脉冲神经网络(SNN) 静默 激活 事件驱动 | 只有脉冲才耗能 | 稀疏高效 信息以脉冲时序和频率编码 ③ 生物神经元(参照) 树突 胞体 轴突(稀疏放电) 大脑约 20 W 完成复杂认知任务

脉冲神经网络(Spiking Neural Network, SNN)是这套范式在算法层的形式化:每个神经元维护一个膜电位状态,输入脉冲来了就累加,超过阈值便向下游发出一个脉冲,同时把自己的电位复位。信息不存在某个浮点激活值里,而是编码在脉冲的时序和频率里,即何时发、发多密。对应到硬件,神经形态芯片是事件驱动的:没有全局时钟把所有单元拍成一拍,哪里有脉冲来,哪里才被唤醒处理;没有事件时电路静止,静态功耗近乎为零。这一线最具代表性的两块芯片是 IBM 的 TrueNorth(2014)和清华施路平团队的天机(Tianjic,2019)。TrueNorth 第一次在大规模芯片上落地了事件驱动架构;天机让 SNN 和 CNN 共存于同一颗芯片,2019 年用于无人自行车控制、登上 Nature 封面,这说明类脑架构不必脱离主流深度学习自成一派。但在 ImageNet 这类标准分类任务上,SNN 的精度仍落后 ANN(Artificial Neural Network,人工神经网络)几个百分点。根源在于训练。

训练这件事卡在一个底层的数学问题上。标准深度学习的反向传播需要每个激活的梯度,而 SNN 的脉冲是离散跳变,电位没到阈值是 0,到了瞬间跳到 1,这个函数不可微,没有梯度可传。解决这个问题有两种方法。第一个方法是替代梯度(surrogate gradient):前向传播照常用真实的脉冲函数,反向传播时把它替换成一个平滑的近似函数计算梯度。这条路有效,但前向反向用的不是同一个东西,引入了系统性的近似误差,规模越大误差越显眼。第二个方法是 ANN-to-SNN 转换:先用标准方法训练好一个 ANN,再把权重转换成等价的 SNN 脉冲频率编码,精度损失更小,代价是 SNN 推理时需要多个时间步累积才能给出稳定结果,会引入额外延迟。这两条路各有代价,如何在精度、能耗、延迟之间找一个工程上可用的折中,目前还没有定论。但它们有一个共同点——训练在软件里完成,把权重训好之后再灌进神经形态芯片。大脑里却没有这种二分,神经元一边在工作,突触一边在调整自己。要把"事件驱动"这套思路再往前推一步,让"学"本身也发生在硬件里,问题就从神经元转向了突触。

大脑里两个神经元之间的连接强度,会根据它们的脉冲时间差自动调整。前面的神经元先发放动作电位,后面的跟着发,这条突触就被加强;反过来则被削弱。这种特性叫 STDP(Spike-Timing-Dependent Plasticity,脉冲时序依赖可塑性),是大脑学习的物理基础之一。要在硬件上做出这种"会自己变化"的连接,SRAM 这类标准存储不行,它只能存离散二值,没办法连续调整,更不会随输入历史漂移。忆阻器在类脑芯片这一领域则登堂入室。和存算一体(CIM)不同,CIM 也有用忆阻器的,但利用的是忆阻器"电阻可调 + 电流在列线上自然求和"这两个特性来直接做矩阵乘法,把存储和计算合一,这一点在类脑场景里也成立。但类脑芯片还利用了忆阻器的"漂移"行为。施加脉冲序列时,忆阻器的电阻会随脉冲历史自然变化,这一特性在 CIM 里曾被当作缺陷(电阻不稳定让权重难以精确编程),在类脑场景下反而是可利用的性质。如果能让忆阻器的漂移规律对齐 STDP,那么"学习"就不再需要从外部加载新权重,而是芯片在工作中自己改变自己。这样一来,训练发生的地点就从软件转移到了硬件

核心研究问题

  • 忆阻器突触与 STDP:忆阻器加脉冲序列时电阻按历史自然漂移,这一在存算一体里被当作缺陷的特性,能否驯化成 STDP 的物理载体、让学习直接发生在器件上。
  • SNN 训练与替代梯度:膜电位过阈瞬间从 0 跳到 1,这个阶跃函数没有梯度,标准反向传播直接失效;替代梯度前向用真实脉冲、反向换平滑近似,又引入系统性误差,大网络上难收敛。
  • ANN-SNN 转换:把训好的 ANN 权重转成脉冲频率编码,精度损失更小,但推理要多个时间步累积才稳定,精度、能耗、延迟很难同时兼顾。
  • 事件驱动的神经形态电路:积分-触发神经元要做成模拟的、片上网络要做成异步事件驱动的,没事件时电路近乎静止,静态功耗才能压到近零。
  • SNN/ANN 异构集成:天机已证明脉冲网络和 CNN 能在同一颗芯片上共存,但这种异构架构的片上网络、调度与编译运行时还有不少要补的课。
  • 类脑感知器件:让感光、感触这些感知环节本身就以脉冲事件输出、就地稀疏处理,仿视网膜的事件相机是代表。

知识路径

算法线(数学→ML→DL→SNN)提供神经形态计算模型,器件线(物理→半导体器件→前沿器件)提供忆阻器等新型存储单元,电路线与体系结构线决定芯片最终能实现什么。节点对应学习地图里的目录:

graph LR
    AN[分析] --> PROB[概率与统计]
    AN --> PHY
    PROB --> ML[机器学习]
    DS[代数] --> ML
    DS --> PROB
    ML --> DL[深度学习]
    DL --> SNN[类脑与SNN]
    PHY[大学物理] --> QM[量子力学]
    QM --> SS[固体物理]
    SS --> SP[半导体物理]
    SP --> DEV[半导体器件]
    DEV --> FRO[前沿器件]
    PRO[集成电路工艺] --> FRO
    SYS[计算机系统基础] --> ARCH[体系结构]
    DIG[数字设计] --> ARCH
    DIG --> EDA
    SNN --> X[类脑芯片]
    FRO --> X
    DEV --> MAS
    MAS[模拟与射频] --> X
    ARCH --> X
    EDA[EDA] --> X

    classDef math fill:#EBF4FF,stroke:#2C5282
    classDef ai fill:#F0FDF4,stroke:#16A34A
    classDef phys fill:#F3E8FF,stroke:#553C9A
    classDef ckt fill:#FFFBEB,stroke:#B7791F
    classDef dev fill:#FDE8D8,stroke:#C0530A
    classDef goal fill:#F1F5F9,stroke:#64748B,stroke-width:2px
    class AN,DS,PROB math
    class ML,DL,SNN ai
    class PHY,QM,SS,SP phys
    class MAS,DIG,SYS,ARCH,EDA ckt
    class DEV,PRO,FRO dev
    class X goal

这个方向适合谁

适合觉得”换一种计算方式”比沿着旧路再提升一些性能更有意思的人。切口有两个,模拟电路扎实的去做神经元电路和脉冲路由,对器件物理有兴趣的去研究忆阻器,让它的漂移对齐 STDP、让学习直接发生在硬件上。日常横跨两个领域,白天调电路或器件,晚上读 SNN 训练的算法论文,社区偏小且分散,得习惯两边来回切换。还要有心理准备,SNN 的精度至今落后主流神经网络几个百分点,做这个方向看重的是能效那几个数量级的差距,不是榜单上的名次。

学术界

课题组

境内

  • 白恩慧 清华

    神经形态计算电路 | 仿生神经晶体管 | 时空信息处理

  • 施路平 清华

    天机/天眸神经形态芯片 | SNN/ANN 融合 | 视觉感知与机器人

  • 吴华强 清华

    忆阻器存算一体芯片 | 神经网络硬件加速 | 贝叶斯/在线学习

  • 张悠慧 清华

    SNN 芯片编译与运行时 | 可编程神经形态处理器 | 软硬件协同设计

  • 裴京 清华

    天机芯片混合架构 | ANN/SNN 统一计算范式 | 脑启发系统层次

  • 唐建石 清华

    忆阻器突触与神经元器件 | 储备池计算 | 脑机接口神经解码

  • 陈虹 清华

    异步SNN处理器芯片 | 片上增量学习 | 超低功耗边缘AI

  • 张续猛 复旦

    忆阻器神经元电路 | 铁电突触阵列 | 脉冲驱动类脑芯片

  • 周鹏 复旦

    二维材料存内计算 | 仿生人工神经元 | 视网膜神经假体

  • 刘琦 复旦

    ReRAM 交叉阵列 | SNN 片上在线学习 | 忆阻器脉冲神经元集成

  • 王明 复旦

    神经形态忆阻器件 | 柔性智能电子

  • 陈贤哲 复旦

    自旋存储器件 | 忆阻器神经形态计算 | 铁电与反铁磁材料

  • 黄如 北大

    铁电存储器突触器件 | 脉冲神经元电路 | 边缘智能计算芯片

  • 杨玉超 北大

    忆阻器大规模集成 | 混合动态忆阻器SNN | 存算一体芯片

  • 蔡一茂 北大

    RRAM忆阻器件 | 神经形态芯片设计 | 先进存储集成

  • 杨睿 交大

    阻变存储器(RRAM)存内计算 | 神经形态计算系统 | 二维材料纳机电器件

  • 缪峰 南大

    二维材料忆阻器阵列 | 传感器内计算视觉感知 | 并行内存神经形态系统

  • 万昌锦 南大

    脉冲编码人工感觉神经元 | 忆阻器储层计算阵列 | 神经形态感知与假肢系统

  • 余林蔚 南大

    硅纳米线忆阻器 | 概率激活神经形态计算 | 柔性仿生传感与人机接口

  • 申富饶 南大

    脉冲神经网络(SNN)训练 | 自组织增量在线学习 | 神经形态计算与边缘部署

  • 潘纲 浙大

    Darwin 系列类脑芯片 | 大规模 SNN 硬件映射 | 片上学习与 NoC 架构

  • 林芃 浙大

    电化学忆阻类脑器件 | 单器件神经形态感知 | 存算一体在线学习

  • 马德 浙大

    SNN 硬件映射与基准测试 | 多核神经形态处理器架构 | 片上网络 NoC 互联设计

  • 胡绍刚 成电

    忆阻器件 | 类脑芯片 | 数字集成电路

境外

  • Ngai Wong(黃毅) 港大

    忆阻器/ReRAM 突触器件 | 边缘端神经形态推理芯片 | 紧凑神经网络加速

  • Kwabena Boahen Stanford

    脉冲神经网络 SNN | 树突计算与在线学习 | 大规模类脑芯片(Neurogrid)

  • Yiran Chen(陈怡然) Duke

    脉冲神经网络加速 | 存内计算芯片 | 边缘 AI 系统

  • Shimeng Yu(余诗孟) Georgia Tech

    新型非易失存储器(RRAM/FeFET) | 存算一体(CIM)芯片设计 | NeuroSim 架构仿真评估

  • Marian Verhelst KU Leuven / imec

    嵌入式神经网络加速器 | 数模混合 AI 芯片 | 边缘低功耗推理

  • Damien Querlioz Paris-Saclay / CNRS

    忆阻器人工突触 | 自供能神经网络 | 随机硬件贝叶斯推理

  • Kaushik Roy Purdue

    脉冲神经网络与片上在线学习 | 混合模数 CIM 加速器 | 铁电/自旋器件协同设计

  • Wei Lu(卢伟) U Michigan

    RRAM/忆阻器突触阵列 | Crossbar 存算一体 | 神经形态在线学习电路

学术会议与期刊

会议 ISSCC IEDM VLSI Symposium NeurIPS ICLR AAAI DAC
期刊 Nature / Nature Electronics / Nature Machine Intelligence JSSC TED TNNLS

毕业去向

企业

科研院所

相关科普

论文推荐

待补充

欢迎推荐该方向的入门综述或经典论文,参与建设 →