NVIDIA 砍掉四芯 Rubin Ultra：旗舰 AI 芯片的封装天花板到了

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

6月30日，多家媒体报道 NVIDIA 取消了原计划的四芯（quad-die）Rubin Ultra GPU，改为双芯设计。原因是 CoWoS-L 封装的良率和热管理无法支撑四芯方案。这距离 GTC 2026 首次公布仅三个月——NVIDIA 旗舰路线图的这次变更，暴露的不仅是一颗芯片的工程难题，而是先进封装在大面积多芯方案上撞上的物理天花板。

原方案有多猛

四芯 Rubin Ultra 的设计目标堪称 AI 芯片史上最激进的封装：四个接近 reticle size（光刻机最大曝光面积）的计算芯粒，搭配 16 堆 HBM4E 内存，全部集成在一片硅中介层上，使用 TSMC 的 CoWoS-L 封装技术。

什么概念？目前量产的最大 AI 加速器——NVIDIA 自家的 Blackwell B200——用的是双芯封装加 8 堆 HBM3e。四芯 Rubin Ultra 的封装面积和复杂度直接翻倍，HBM 堆栈数量也翻倍。这已经不是"渐进式升级"，而是在挑战半导体封装的物理极限。

为什么做不下去

先进封装的难题不是"能不能做出来"，而是"做出来之后良率够不够、稳定性行不行"。

热应力是第一道坎。四个大尺寸计算芯粒加上 16 堆 HBM，在同一片硅中介层上，工作时产生巨大热量。大面积封装的热膨胀系数不匹配会导致机械翘曲——芯片"弓"起来，焊点断裂，信号完整性恶化。芯片面积越大，这个问题越严重。

良率是第二道坎。半导体制造的基本规律：面积越大，缺陷概率越高。四芯封装面积接近或超过 reticle limit，良率天然极低。即便单个 die 质量合格，在封装环节的累积缺陷率也会让整体良率大幅下降。

NVIDIA 官方给出的理由是"manufacturing execution concerns"——翻译成大白话就是：做不出来，或者做得出来但不划算。

双芯方案：砍半还是换路

Tom's Hardware 和 Wccftech 对双芯方案的性能影响有分歧，这个分歧本身就很有信息量。

Tom's Hardware 的判断是：从四芯砍到双芯，性能大约减半——原方案四个计算芯粒变成了两个，HBM4E 堆栈也从 16 降到 8，单封装的计算能力和内存容量都缩水。

Wccftech 引用台湾供应链的消息给出了不同解读：NVIDIA 不是简单砍半，而是从"单封装四芯"转向"板级 2+2"。具体来说，Rubin Ultra 不再追求把四个 die 塞进一个 CoWoS-L 封装，而是在一块服务器刀片（Kyber blade）上放置两个双芯封装，通过 PCB 互连组成 2+2 结构。这样做的好处是：每个封装的制造难度大幅降低，但整体系统层面的计算芯粒数量和 HBM 容量可以保留。

两种说法可能都是对的——取决于你从哪个层面看。单封装层面确实"砍半"了，但系统层面如果板级集成方案足够高效，总算力损失可能没那么大。关键变量是 die 间互连的延迟和带宽：单封装内的硅中介层互连是纳秒级、TB/s 级的，而 PCB 上的互连要慢一到两个数量级。

这对行业意味着什么

对采购方：如果你是超大规模云厂商，正在规划 2027 年的 AI 集群，Rubin Ultra 路线图变更意味着你需要重新评估算力密度和成本模型。原方案"一个封装顶四个 die"的算力密度没了，机架级设计需要调整。

对 TSMC：CoWoS-L 产能本就是瓶颈，NVIDIA 的退却说明即便是 TSMC 最先进的封装技术，在大面积多芯方案上也还没准备好。这对 TSMC 的封装路线图是压力也是动力——下一代 CoWoS 技术需要解决翘曲和良率问题。

对 AMD：Rubin Ultra 性能打折，给 AMD MI455X/Helios 打开了窗口。Helios 单机架 31TB HBM4 对比 Rubin NVL72 的 20.7TB，内存容量优势仍在。如果 Rubin Ultra 的算力密度不如预期，AMD 在大模型推理场景的竞争力会更强。但前提是 AMD 自己的出货节奏不拖——目前 Helios 还在工程样品阶段。

对 HBM 供应链：四芯方案需要 16 堆 HBM4E，双芯只需 8 堆（或板级分散）。单封装 HBM 需求量下降，但系统级总需求可能不变——取决于 NVIDIA 最终的板级方案。对 SK hynix 和 Samsung 来说，短期产能压力可能略有缓解，但 HBM4E 的技术爬坡节奏不受影响。

冷静看

NVIDIA 不是第一次改路线图。Blackwell 世代也因为 CoWoS-L 封装问题推迟了量产，最终通过调整封装设计（GB200 改用双 die-on-substrate 方案）解决了问题。这次 Rubin Ultra 的变故遵循类似的模式：激进设计 → 封装难题 → 退一步改方案。

但这次暴露的问题比 Blackwell 更深层。Blackwell 的封装难题是"双芯能不能做"——答案是可以，只是需要时间调试。Rubin Ultra 的封装难题是"四芯能不能做"——答案是现阶段做不了，不是时间问题，而是物理极限。

这给整个行业一个明确的信号：先进封装不再是芯片设计的"最后一公里"，而是决定芯片架构可行性的"第一公里"。 你能在 paper 上设计出四芯、六芯甚至八芯的方案，但如果封装做不出来，设计就是空中楼阁。未来的 AI 芯片竞争，封装能力至少和计算能力同等重要。

基于 Tom's Hardware、Wccftech 等多家媒体转述整理。

参考来源

https://letsdatascience.com/news/nvidia-drops-quad-die-rubin-ultra-for-dual-die-7e6832d9

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。