NVIDIA 让 GPU 绕过 CPU 直连存储：GIDS 架构将随 Vera Rubin 登场，HBF 有望把 AI 显存容量翻 16 倍

分类: AI硬件设备 |发布于: 5/21/2026 |最后更新: 5/21/2026

NVIDIA 让 GPU 绕过 CPU 直连存储：GIDS 架构即将随 Vera Rubin 登场，HBF 高带宽闪存有望把 AI 显存容量翻 16 倍

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

5 月 18 日，在首尔举办的第二届半导体器件前沿峰会上，延世大学系统半导体工程系教授宋基焕披露了一项正在推进中的架构变革：NVIDIA 正在开发名为 GPU-Initiated Direct Storage Access（GIDS）的新架构，计划从下一代 Vera Rubin AI 平台开始部署。核心变化一句话就能说清——GPU 不再经过 CPU 和 DRAM，直接向存储设备发命令取数据。

基于多家媒体转述整理。

从"CPU 当调度"到"GPU 自己来"

现行的 GPU Direct Storage（GDS）架构下，存储访问的流程是：CPU 发请求→存储设备准备数据→通过 DMA 直接传到 GPU。看起来数据是直达 GPU 的，但发起请求的"调度员"仍然是 CPU。CPU 的线程处理能力有天然上限，而 GPU 可以并发数万个线程——让 GPU 自己当调度员，并行效率高得多。

GIDS 的变化在于：GPU 自己发存储命令，数据直接返回 GPU，CPU 和 DRAM 完全不出现在这条路径上。这不只是少了一跳延迟，而是从架构层面重新定义了"谁管数据"。

宋基焕还给出了一个关键数字：在现有架构中，GPU 和 HBM 之间的数据传输已经占了系统总功耗的大约 50%。单靠堆 HBM 堆数来解决容量问题，功耗只会更严重。GIDS 的思路是：与其让所有数据都挤在 HBM 这一扇门里，不如给 GPU 开一扇直达存储的"后门"。

HBF：GIDS 的天然搭档

GIDS 要发挥作用，存储端也得跟得上。传统 SSD 的带宽远远喂不饱 GPU——这就是 HBF（High Bandwidth Flash，高带宽闪存）的切入点。

HBF 用和 HBM 类似的 TSV（硅通孔）垂直堆叠技术来封装 NAND 闪存，定位在 HBM 和传统 SSD 之间：带宽远高于 SSD，容量密度远高于 HBM。NAND 闪存的位密度大约是 DRAM 的 30 倍。

宋基焕给出的算账方式很直观：如果把一个 GPU 封装从纯 8 颗 HBM（192GB）改成 6 颗 HBF + 2 颗 HBM，总内存容量可以从 192GB 跳到 3120GB——16 倍提升。这意味着同一张卡可以跑参数量大约 16 倍大的模型。

不过 HBF 有明确的使用边界：NAND 闪存擦写寿命大约 10 万次，远低于 DRAM 的几乎无限制。因此 HBF 适合存储模型参数（推理时几乎只读，写入一次反复读取），不适合 KV Cache 这类高频写场景。

产业链已经在动了

GIDS 和 HBF 不是纸上规划，配套的产业链信号已经出现：

Wiwynn 在今年 3 月的 GTC 2026 上展示了 NVIDIA 的 Storage-Next 方案：一个 GPU 编排 96 盘 NVMe 阵列——这是 GIDS 架构在机架级基础设施中的第一次商业预演
SK 海力士和 SanDisk 早在 2025 年 8 月就签署了 HBF 联合开发 MOU，2026 年 2 月在 SanDisk 米尔皮塔斯总部召开了 HBF 规范标准化联盟启动会，工作流已纳入 OCP（开放计算项目）
SanDisk 表示目标 2026 年下半年出 HBF 样品，首批搭载 HBF 的 AI 推理设备预计 2027 年初出样
三星也在研发基于 Z-NAND 的 GIDS 方案
亚马逊、微软、AMD 都在评估类似的 GPU 直连存储架构

对 AI 工作负载的实际影响

推理场景影响最大。 大模型推理的核心瓶颈之一就是参数放不下——参数量超过 HBM 容量，就得频繁在 HBM 和 CPU 内存之间搬运，延迟和功耗都上去了。HBF 作为"参数仓库"紧贴 GPU 封装，推理时按需读取，不占 HBM 空间。MoE（混合专家）模型尤其受益：大部分专家参数平时不需要在 HBM 里，按需从 HBF 加载即可。

训练场景 受益相对间接。训练需要频繁写入梯度和优化器状态，这些不太适合放 HBF。但模型参数的读取路径可以走 GIDS + HBF，腾出 HBM 容量给训练中间状态。

功耗是另一个隐形收益：减少 CPU-DRAM 中转意味着减少数据搬运功耗。在 AI 数据中心电费已经超过硬件折旧的时代，任何降低数据搬运功耗的架构改进都有实际经济价值。

还不确定的事

GIDS 目前是架构规划而非已发布的产品功能，具体实现细节和上线时间取决于 Vera Rubin 的交付节奏（NVIDIA 表示 2026H2 合作伙伴可用）
HBF 规范仍在 OCP 标准化过程中，最终规格可能调整
NAND 闪存的顺序读取性能在持续提升，但和 HBM 的带宽相比仍有数量级差距，GIDS 架构需要配合足够多的并行存储通道才能喂饱 GPU
HBF 的良率、成本和产能规模尚无公开数据

---

*基于 The Elec（2026-05-18）、TrendForce（2026-05-20）、PBX Science（2026-05-21）等报道整理。*

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。