HBM占AI芯片成本近半,测试左移成行业新战场
HBM占AI芯片成本近半,测试左移成行业新战场
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
一块AI芯片拆开看,最贵的零件是什么?很多人会猜GPU核心,但答案可能是内存。
HBM(High Bandwidth Memory,高带宽内存)目前已占到一块AI加速器总成本的将近一半。更关键的是,在超大规模数据中心里,HBM故障已经成为GPU失效的第一大原因——比GPU核心坏掉还常见。这个结论来自多家芯片测试设备商对hyperscaler(大型云服务商)数据的引用。
这个问题,正在倒逼整个行业重塑芯片制造流程。
HBM堆叠越来越复杂,而问题在变多
过去十年,HBM的堆叠密度爆炸式增长:从最初的2层Die堆叠,发展到今天的12层,业内正加速推进16层方案。与此同时,单颗AI芯片中搭配的HBM堆数量也从4个增加到8个——比如英伟达H系列和AMD MI系列的封装里就能看到这样的配置。
密度增加带来的挑战是全面的:TSV(硅通孔)的对准精度以微米计,晶圆减薄和切割引入的机械应力会放大已有的裂纹和划痕,而热压键合过程本身可能导致开路、短路、枕头效应(Head-in-Pillow)和高阻值连接……
更棘手的是,发现这些问题并不容易。堆叠Die的测试要在覆盖率和测试时间之间找平衡,还要解决堆叠高度带来的热管理难题、功率传输问题和机械操作挑战。
而HBM4和HBM5会让这些挑战进一步升级。 HBM4将支持2,048-bit内存接口,这意味着TSV数量会大幅增加,微凸点间距进一步缩小,16层TSV堆叠的技术难度更是成倍放大。
为什么要"左移"?因为报废一颗代价太大
传统芯片测试的逻辑是"最后再查"——芯片封装完成后再做最终测试,发现问题再淘汰。但对HBM来说,这个逻辑已经行不通了。
原因很直接:一颗Base Logic die如果坏了,跟它堆叠的8到16个HBM die全部跟着报废。一颗不良品的损失是成倍放大的。
以英伟达的GPU封装为例,一颗GPU周围环绕8个HBM堆。在封装后才发现一个HBM堆有缺陷,意味着整块芯片无法出货,前期投入的封装成本、逻辑die成本、HBM堆成本全部打水漂。
这正是"测试左移"(Shift-Left)趋势的根本驱动力:在制造流程中越早发现问题,损失的代价越小。
测试设备商们都在忙什么
这场HBM良品率保卫战,测试设备商是最直接的参与者。
Synopsys 指出,从HBM3到HBM4的跃迁对多Die支撑提出了新的DFT(可测性设计)需求。随着TSV数量增加和堆叠高度上升,测试电路本身必须更精密。
Teradyne 在推动"已知良品堆叠"(Known Good Stack, KGS)测试标准。其观点是:在封装前确保每个HBM堆都是良品,是降低成本最有效的手段。但KGS测试本身面临功率传输和热管理的双重挑战。
Aehr Test Systems 强调wafer level burn-in(晶圆级老化测试)的重要性。这种测试能在芯片进入封装流程前,提前剔除早期失效的器件。随着Die层数增加、封装尺寸变大,这一步只会越来越关键。
FormFactor 则指出,随着HBM器件复杂度提升,测试内容正在持续前移,高速测试、更宽的并行度、更严格的晶圆级温控成为行业新标配。
测试能力正在成为AI芯片的隐形战场
HBM良品率的问题,本质上是AI芯片规模化的一道门槛。
当HBM占芯片成本近半、故障率又远超传统DRAM时,测试不再只是制造流程中的辅助环节,而是直接影响芯片厂商成本结构和交付能力的关键变量。
行业向HBM4/HBM5的演进会让这个矛盾更突出:更密的TSV间距、更窄的微凸点、更多的堆叠层数——每一个技术升级都在放大良品率风险。
从这个角度看,芯片制造商的测试能力,正在成为AI芯片竞争力的隐形战场。谁能更早、更准地抓到HBM缺陷,谁就能在成本和交付上建立优势。
未来,随着AI推理和训练需求的持续扩大,对HBM的需求只会更高、规格只会更苛刻。测试左移从"值得做"变成"必须做",这个趋势可能比很多人预想的来得更快。
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。