先进封装与异构集成
把来自不同工厂、不同工艺的多块芯片高密度整合在同一封装内,是摩尔定律减速后,芯片系统继续提升性能的核心路径。
这个方向在研究什么
2022 年,Apple 发布 M1 Ultra:把两块 M1 Max 通过一条叫 UltraFusion 的互联桥接在一起,硅中介层连接超过 1 万个信号,芯片间带宽 2.5 TB/s,是当时业界领先多芯片互连技术的 4 倍。插进 Mac Studio 的操作系统看不到两块硅片,只看到一块超大单芯片。这不是营销话术。这是先进封装正在重写的行业规则:不再强迫一块芯片装下所有功能,而是把多块分开制造的芯片集成进同一封装,让系统整体性能继续提升。
为什么芯片不能想做多大就做多大?关键是良率。一整片大芯片必须所有功能区同时合格才能用:左右两半各自良率 90%,乘下来整片只剩 90% × 90% = 81%;切四份还连成单 Die 就跌到 90%⁴ ≈ 66%,块越多越惨。怎么破解这道难题?工业界给出了两个对立的答案。
一种是晶圆级集成:干脆整片不切。Cerebras 的 WSE-3 把整片 12 寸晶圆做成一颗芯片:4 万亿晶体管、90 万核不切不分,靠掩膜拼接(reticle stitching)让多次曝光的图案在边界对齐成连续电路,靠片内冗余架构(坏核绕过、备用核顶替)应对良率问题。代价是 23 千瓦功耗集中在一片硅上,需要专门的液冷和供电系统。这条路很激进,目前主要由 Cerebras 一家在推。
另一种思路完全相反:Chiplet(芯粒)——拆得越小越好,每块独立流片、独立测试,坏的当场扔掉就是了,单块自身仍是 90%+ 良率,废品只是几小块的损失。Chiplet 方案让每块芯片独立流片、独立测试,只把通过筛选的已知良品(Known-Good Die, KGD)拼入封装,也就是”打扫干净屋子再请客”。拆开还有意外收获:每块各走最合适的工艺——逻辑核 N3、I/O 控制器 N7、DRAM 自有产线——不再被迫塞进同一种制程。AMD EPYC 如此拼接计算核与 I/O Die,NVIDIA H100 如此将 GPU 与五块 HBM(High-Bandwidth Memory,高带宽内存)整合在一起(封装上留了 6 个位点,量产只点亮 5 颗,第 6 个是哑硅)。Chiplet 是当前工业主流,本节后续主要展开它。
但拆开就产生了新的代价——芯片间的通信成本。信号在片内传输只需几皮秒,能耗极低;越出芯片边界、经过封装基板走线之后,延迟倍增,每比特传输能耗高出一个量级。这个代价让"分开制造"和"合并使用"之间出现了一道鸿沟。先进封装的核心任务是尽量缩短芯片间的物理距离,把互联延迟和每比特能耗压到可忽略的水平:让分离的芯片在物理上靠得更近,近到通信代价可以忽略不计。
沿着“让芯片更近”这条思路,封装技术演化出了一条清晰的路径——从平铺到堆叠,再到两者合体,集成复杂度逐级攀升:2D 最朴素,直接把芯片并排放在有机封装基板上,信号绕行走线,典型间距在百微米量级。2.5D 在 Die 下方铺一层高密度硅转接板(Silicon Interposer),数万个微凸块在 10 微米间距内密集排布,台积电的 CoWoS 封装正是如此,把 Nvidia 的 H100 GPU 与五块 HBM 并排坐在转接板上,HBM 内部通过硅通孔(Through-Silicon Via, TSV)将多层 DRAM 垂直叠起,带宽突破 3 TB/s。3D(TSV) 是 3D 集成的传统形态,在芯片中钻出贯穿硅通孔,让上下两层 Die 通过 TSV + 微凸点垂直堆叠。HBM 内部多层 DRAM 就是这么叠起来的,间距在十微米量级。3D(Hybrid-Bonding) 则把堆叠间距压缩到极限。台积电 SoIC、AMD 3D V-Cache、Intel Foveros Direct 改用铜-铜直接键合,无需凸点,间距压到不到 1 微米,连接密度已接近片内互联。上下两层芯片之间的边界正在消弭。最新的3.5D 则进一步将 2D 与 3D 结合。Broadcom(博通)的 XDSiP 以 CoWoS-L 大尺寸转接板为水平底座,同时将多块计算 Die 面对面(Face-to-Face, F2F)垂直键合叠放,整个封装体可容纳 6000+ mm² 硅片和 12 块 HBM,Die 间接口功耗降低 90%。
芯片的基板材料现在越来越重要。信号从芯片出发,必须先穿过基板才能抵达另一端,基板的介电性质直接影响传输损耗。当前主流的 ABF 有机基板(Ajinomoto Build-up Film,味之素膜)在 2020-2021 年芯片短缺期间成为全球供应链瓶颈。Intel 之前力推玻璃基板作为下一代方案:介电损耗更低、线宽更细、热膨胀系数更接近硅(减少热循环中的界面应力)。但玻璃质脆,激光钻微孔时容易崩裂,如何在不开裂的前提下打出高密度通孔,是当前封装材料研究的核心难题。
先进封装也延伸到了服务器之间。AI 集群里,GPU 节点通过光纤互联,传统方案把光模块插在交换机端口,信号在外部模块和交换 ASIC 之间来回进行光电转换,每次转换都有插入损耗(insertion loss),白白烧掉能量。光电共封装(Co-Packaged Optics, CPO)把光引擎和交换 ASIC 直接封装在一起,光电转换在芯片旁边完成,传输距离极短、损耗极低。随着 AI 训练对跨机柜带宽的需求指数级上升,CPO 已成为下一代数据中心交换机的核心技术方向。
如果说上面的路线都在解决“硅与硅之间”的通信代价,如果最擅长某项功能的材料根本不是硅,异质材料集成就是要回答能否把它引入封装体内的问题。硅擅长逻辑,但在射频放大、大功率开关、激光发射等场景远非最优。GaAs、GaN、InP 等 III-V 族半导体在这些领域远超硅。把它们与硅 CMOS 集成在同一封装内,让系统博采众长。但这个思路工程难题很大,因为 III-V 材料与硅热膨胀系数(Coefficient of Thermal Expansion, CTE)严重失配,温度循环中的应力会撕裂界面,还有 III-V 工艺中的砷、磷等元素对 CMOS 产线是污染源,工艺隔离需要精细设计。
封装把芯片越拼越近,但也带来几个问题。首当其冲是散热。3D 堆叠把功率密度推过 1000 W/cm²,比喷气发动机燃烧室还高,上层 Die 又压住下层的散热通路,热量要在不拆封装的前提下导出去。二是测试。坏 Die 混进封装才暴露,整个封装体一起报废。三是标准。跨厂的 Chiplet 要互联,物理接口得先统一,Intel、台积电、AMD 联合制定的 UCIe(Universal Chiplet Interconnect Express)为此定义了 Die 间互联的物理层与协议层。终点的图景是一块封装体里,AMD 的计算核、三星的 HBM、台积电代工的加速器彼此直接对话,像在同一块芯片内部一样。这件事今天还没有完全做到。
核心研究问题
- 高密度键合工艺:TSV、微凸块到 Cu-Cu 混合键合,互连间距一路压到 1 微米以下,对准精度、界面缺陷、长期可靠性每一关都要在洁净间里过。
- 3D 堆叠的散热:直接键合后功率密度可超 1000 W/cm²,上层 Die 堵死下层热路,从界面热阻到微流道冷却,要在不拆封装的前提下把热导走。
- 多 Die 物理设计与架构-封装协同:2.5D/3D 的布图规划、布局布线、热感知优化是一类新的图算法与优化问题;UCIe 还要让跨厂的计算核、HBM、加速器在同一封装里像单芯片一样对话,STCO 把这件事从架构一路推到封装。
- 芯片-封装协同的信号与电源完整性:信号一越出芯片边界,延迟翻倍、每比特能耗高一个量级,高速 Die 间互联的串扰、电源噪声、电磁建模要把芯片和封装放在一起算。
- 异质材料与光电 I/O 集成:III-V、玻璃基板、片上光互连各有所长,却和硅热膨胀失配、工艺互相污染,要把它们集成进同一封装而不牺牲可靠性。
知识路径
物理线(分析→大学物理→量子力学→固体→半导体→器件→工艺)通向封装本体,传热学管散热,电磁场与微波管高速互连的信号完整性,系统线(数字设计→EDA、体系结构)驱动 chiplet 设计分工。节点对应学习地图里的目录:
graph LR
AN[分析] --> PHY[大学物理]
AN --> SIG[信号处理]
PHY --> QM[量子力学]
QM --> SS[固体物理]
SS --> SP[半导体物理]
SP --> DEV[半导体器件]
PHY --> HEAT[传热学]
PHY --> EM[电磁场与微波]
MAT[材料] --> PRO[集成电路工艺]
MAT --> DEV
DEV --> PRO
PRO --> PKG[先进封装]
MAT --> PKG
SIG --> MAS[模拟与射频]
DEV --> MAS
EM --> MAS
DIG[数字设计] --> EDA[EDA]
PKG --> X[先进封装与异构集成]
HEAT --> X
EM --> X
MAS --> X
EDA --> X
ARCH[体系结构] --> X
classDef math fill:#EBF4FF,stroke:#2C5282
classDef phys fill:#F3E8FF,stroke:#553C9A
classDef dev fill:#FDE8D8,stroke:#C0530A
classDef sys fill:#FFFBEB,stroke:#B7791F
classDef goal fill:#F0FDF4,stroke:#16A34A,stroke-width:2px
class AN math
class PHY,QM,SS,SP,HEAT,EM phys
class DEV,MAT,PRO,PKG dev
class DIG,SIG,MAS,ARCH,EDA sys
class X goal
- 数学:分析(微积分,大学物理与传热学的前置)
- 物理:大学物理 · 量子力学 · 固体物理 · 半导体物理 · 传热学 · 电磁场与微波(待建,SI/PI 分析的基础)
- 器件与工艺:半导体器件 · 材料 · 集成电路工艺 · 先进封装(待建)
- 电路:信号处理 · 模拟与射频(SerDes、高速接口) · 数字设计 · EDA
- 系统架构:体系结构(chiplet 架构划分)
这个方向适合谁
适合喜欢全系统协同优化的人。不需要某一门课特别拔尖,而是要能同时兼顾各方各面。封装里没有单点的最优解,每个方案都是良率、带宽、散热、成本之间的讨价还价,最终的方案往往来源于极致的权衡。这个方向有两拨人在合作,一拨是做工艺的,基本上要泡超净间;另一波是做设计的,日常工作和做架构的差不多,就是设计电路和做仿真。
学术界
课题组
境内
-
马恺声 清华
Chiplet 系统架构设计 | 芯片间互联与时序 | Post-Moore 处理器设计
-
王谦 清华
三维集成与芯粒封装 | 晶圆级互连工艺 | 异质异构集成
-
王喆垚 清华
3D 键合与 TSV 互联 | Chiplet 系统集成 | 微纳制造与传感集成
-
蔡坚 清华
倒装芯片与混合键合 | Fan-out 多芯粒热管理 | 封装可靠性与失效分析
-
陈迟晓 复旦
Chiplet 异构集成系统 | AI 算法-电路-架构协同 | 感存算一体
-
王玮 北大
Fan-out 芯粒封装工艺 | 微流道芯片散热 | 微系统集成与热管理
-
程哲 北大
三维堆叠芯片热管理 | 混合键合界面热导 | Chiplet 热设计仿真
-
徐奇 中科大
3D IC 布图规划与布局优化 | 三维集成可靠性设计 | AI for EDA
-
王郁杰 中科院
Chiplet 分解与自动化设计 | 2.5D IC RDL 布局布线 | 架构-封装协同设计(STCO)
-
王成 交大
3DIC 异构集成工艺 | TSV / 混合键合互连 | HBM 与背面供电网络
-
吴林晟 交大
射频系统级封装(SiP)· 硅中介层射频无源集成 | 异构集成射频微系统
-
杜源 南大
Chiplet 超高速 die-to-die 互连 | 光电融合计算 I/O | 存内计算芯片
-
朱晓雷 浙大
Chiplet 布局规划与系统集成 | CoWoS 封装热网络仿真 | 3D 集成电路设计
-
李尔平 浙大
芯片-封装电磁建模 | 信号与电源完整性 | 异构集成多物理场仿真
境外
-
Tsung-Yi Ho(何宗易) 港中大
封装基板布线自动化 | Chiplet-Package 协同设计 EDA | 先进封装物理设计
-
Bei Yu(余备) 港中大
EDA 芯粒物理设计 | 3D-IC 布局布线 | ML 辅助设计空间探索
-
晶圆级封装与 3D IC 集成 | TSV 与高密度互连 | 先进封装可靠性与热管理
-
Eric Pop Stanford
3D IC 叠层芯片散热 | 芯片间热界面材料 | 异构集成热流分析
-
Madhavan Swaminathan Georgia Tech
玻璃中介层集成 | 芯粒信号与电源完整性 | 异构 3D-IC 封装协同设计
-
Muhannad S. Bakir Georgia Tech
芯片间桥接互连 | 芯粒键合与异构集成 | 微流道散热
-
Subramanian S. Iyer UCLA
细间距芯粒互连 | 硅互连基板 | 晶圆级异构集成
-
Nam Sung Kim UIUC
芯粒架构设计 | CXL 内存互联 | 近存计算系统
学术会议与期刊
毕业去向
企业
科研院所
相关科普
论文推荐
待补充
欢迎推荐该方向的入门综述或经典论文,参与建设 →