AI硬件设备

NVIDIA 砍掉四芯 Rubin Ultra:旗舰 AI 芯片的封装天花板到了

2026年7月1日1 次阅读
NVIDIA 砍掉四芯 Rubin Ultra:旗舰 AI 芯片的封装天花板到了

NVIDIA 砍掉四芯 Rubin Ultra:旗舰 AI 芯片的封装天花板到了

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

6月30日,多家媒体报道 NVIDIA 取消了原计划的四芯(quad-die)Rubin Ultra GPU,改为双芯设计。原因是 CoWoS-L 封装的良率和热管理无法支撑四芯方案。这距离 GTC 2026 首次公布仅三个月——NVIDIA 旗舰路线图的这次变更,暴露的不仅是一颗芯片的工程难题,而是先进封装在大面积多芯方案上撞上的物理天花板。

原方案有多猛

四芯 Rubin Ultra 的设计目标堪称 AI 芯片史上最激进的封装:四个接近 reticle size(光刻机最大曝光面积)的计算芯粒,搭配 16 堆 HBM4E 内存,全部集成在一片硅中介层上,使用 TSMC 的 CoWoS-L 封装技术。

什么概念?目前量产的最大 AI 加速器——NVIDIA 自家的 Blackwell B200——用的是双芯封装加 8 堆 HBM3e。四芯 Rubin Ultra 的封装面积和复杂度直接翻倍,HBM 堆栈数量也翻倍。这已经不是"渐进式升级",而是在挑战半导体封装的物理极限。

为什么做不下去

先进封装的难题不是"能不能做出来",而是"做出来之后良率够不够、稳定性行不行"。

热应力是第一道坎。四个大尺寸计算芯粒加上 16 堆 HBM,在同一片硅中介层上,工作时产生巨大热量。大面积封装的热膨胀系数不匹配会导致机械翘曲——芯片"弓"起来,焊点断裂,信号完整性恶化。芯片面积越大,这个问题越严重。

良率是第二道坎。半导体制造的基本规律:面积越大,缺陷概率越高。四芯封装面积接近或超过 reticle limit,良率天然极低。即便单个 die 质量合格,在封装环节的累积缺陷率也会让整体良率大幅下降。

NVIDIA 官方给出的理由是"manufacturing execution concerns"——翻译成大白话就是:做不出来,或者做得出来但不划算。

双芯方案:砍半还是换路

Tom's Hardware 和 Wccftech 对双芯方案的性能影响有分歧,这个分歧本身就很有信息量。

Tom's Hardware 的判断是:从四芯砍到双芯,性能大约减半——原方案四个计算芯粒变成了两个,HBM4E 堆栈也从 16 降到 8,单封装的计算能力和内存容量都缩水。

Wccftech 引用台湾供应链的消息给出了不同解读:NVIDIA 不是简单砍半,而是从"单封装四芯"转向"板级 2+2"。具体来说,Rubin Ultra 不再追求把四个 die 塞进一个 CoWoS-L 封装,而是在一块服务器刀片(Kyber blade)上放置两个双芯封装,通过 PCB 互连组成 2+2 结构。这样做的好处是:每个封装的制造难度大幅降低,但整体系统层面的计算芯粒数量和 HBM 容量可以保留。

两种说法可能都是对的——取决于你从哪个层面看。单封装层面确实"砍半"了,但系统层面如果板级集成方案足够高效,总算力损失可能没那么大。关键变量是 die 间互连的延迟和带宽:单封装内的硅中介层互连是纳秒级、TB/s 级的,而 PCB 上的互连要慢一到两个数量级。

这对行业意味着什么

对采购方:如果你是超大规模云厂商,正在规划 2027 年的 AI 集群,Rubin Ultra 路线图变更意味着你需要重新评估算力密度和成本模型。原方案"一个封装顶四个 die"的算力密度没了,机架级设计需要调整。

对 TSMC:CoWoS-L 产能本就是瓶颈,NVIDIA 的退却说明即便是 TSMC 最先进的封装技术,在大面积多芯方案上也还没准备好。这对 TSMC 的封装路线图是压力也是动力——下一代 CoWoS 技术需要解决翘曲和良率问题。

对 AMD:Rubin Ultra 性能打折,给 AMD MI455X/Helios 打开了窗口。Helios 单机架 31TB HBM4 对比 Rubin NVL72 的 20.7TB,内存容量优势仍在。如果 Rubin Ultra 的算力密度不如预期,AMD 在大模型推理场景的竞争力会更强。但前提是 AMD 自己的出货节奏不拖——目前 Helios 还在工程样品阶段。

对 HBM 供应链:四芯方案需要 16 堆 HBM4E,双芯只需 8 堆(或板级分散)。单封装 HBM 需求量下降,但系统级总需求可能不变——取决于 NVIDIA 最终的板级方案。对 SK hynix 和 Samsung 来说,短期产能压力可能略有缓解,但 HBM4E 的技术爬坡节奏不受影响。

冷静看

NVIDIA 不是第一次改路线图。Blackwell 世代也因为 CoWoS-L 封装问题推迟了量产,最终通过调整封装设计(GB200 改用双 die-on-substrate 方案)解决了问题。这次 Rubin Ultra 的变故遵循类似的模式:激进设计 → 封装难题 → 退一步改方案。

但这次暴露的问题比 Blackwell 更深层。Blackwell 的封装难题是"双芯能不能做"——答案是可以,只是需要时间调试。Rubin Ultra 的封装难题是"四芯能不能做"——答案是现阶段做不了,不是时间问题,而是物理极限。

这给整个行业一个明确的信号:先进封装不再是芯片设计的"最后一公里",而是决定芯片架构可行性的"第一公里"。 你能在 paper 上设计出四芯、六芯甚至八芯的方案,但如果封装做不出来,设计就是空中楼阁。未来的 AI 芯片竞争,封装能力至少和计算能力同等重要。

基于 Tom's Hardware、Wccftech 等多家媒体转述整理。

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。