AI硬件设备

AMD Helios 正面硬刚 NVIDIA Vera Rubin——AI芯片史上首次同窗口对决

2026年6月30日2 次阅读
AMD Helios 正面硬刚 NVIDIA Vera Rubin——AI芯片史上首次同窗口对决

AMD Helios 正面硬刚 NVIDIA Vera Rubin——AI芯片史上首次同窗口对决

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

6月29日,TechTimes 发布了一篇深度对比分析:AMD 的 Helios 机架级 AI 平台(基于 Instinct MI455X GPU)将在7月23日的 AMD keynote 上正式亮相,而 NVIDIA 的 Vera Rubin 已经进入量产阶段,今秋向8家云伙伴出货。这是 AMD 历史上第一次拥有能在同一采购窗口与 NVIDIA 旗舰正面对决的机架级 AI 系统——对比不再是理论推演,而是真金白银的订单争夺。

两个平台,两种哲学

先看硬数据:

| 维度 | NVIDIA Vera Rubin NVL72 | AMD Helios |

|------|------------------------|------------|

| GPU | Rubin (336亿晶体管, TSMC 3nm) | MI455X (CDNA Next) |

| HBM4 容量/GPU | 288 GB | 432 GB |

| HBM4 带宽/GPU | 22 TB/s | 19.6 TB/s |

| 单机架HBM4总量 | 20.7 TB | 31 TB |

| 互连 | NVLink 6 (3.6 TB/s双向/GPU) | UALink |

| 训练吞吐(FP8) | 2.5 exaFLOPS | 1.4 exaFLOPS |

| 机架规模 | NVL72 (72 GPU + 36 CPU) | 全机架配置 |

核心分歧一目了然:NVIDIA 押注互连带宽,AMD 押注内存容量。

内存容量为什么这次特别关键

过去讨论AI芯片性能,第一反应是看算力(TFLOPS)。但2026年的现实是:推理负载的瓶颈不在计算,而在内存带宽和容量。这就是行业里常说的"内存墙"。

万亿参数模型做推理时,首先要解决的问题是:模型能不能装进一个机架?如果能,所有 GPU 之间的通信都在机架内完成,延迟低、吞吐高;如果不能,就得跨机架切分,每一次跨机架通信都是性能损耗。

Helios 单机架拥有 31TB HBM4,比 Rubin 的 20.7TB 多出 50%。这意味着更大的模型可以在单个机架上完整运行,避免跨机架通信带来的开销。AMD CEO Lisa Su 也确认,长上下文推理是 Helios 当前最大客户部署的主要工作负载。

OpenAI 总裁 Greg Brockman 公开为 Helios 背书,理由正是其大内存对长运行 Agent 工作流的支持——这也是一个明确信号:AI 行业的关注点正从"训练更快"转向"推理更稳"。

NVIDIA 的护城河在哪里

内存容量落后,不代表 NVIDIA 处于下风。

互连优势是结构性差距。 NVLink 6 提供 3.6 TB/s 双向带宽每 GPU,整个 NVL72 机架的聚合带宽达 260 TB/s。这对 MoE(混合专家)模型的专家路由特别关键——MoE 是当前前沿模型的主流架构,每次推理都需要在不同 GPU 之间快速调度不同的"专家"子网络,互连带宽直接决定调度效率。

生态壁垒依然是AMD最难翻的墙。 CUDA 经过近十年积累,已经形成了从底层库到上层框架的完整闭环。虽然 AMD 的 ROCm 在快速追赶,但实际部署中的兼容性和调试体验差距仍然明显。

出货节奏领先。 Vera Rubin 已经量产,CoreWeave 在6月1日完成了首架全机架验证,8家云伙伴(AWS、Google Cloud、Azure、Oracle、CoreWeave、Lambda、Nebius、Nscale)确认今秋出货。Helios 目前还在工程样品阶段,MLPerf 基准测试数据尚未公开——没有独立第三方性能数据,纸面参数终究只是纸面参数。

出货时间线

  • NVIDIA Vera Rubin:已量产,2026 Q4 通过8家云伙伴出货。企业级用户没有超大规模合同的话,实际可用时间大概率在2027年——这和前两代 GPU(Hopper、Blackwell)的供应爬坡模式一致。
  • AMD Helios:2026下半年工程样品和限量生产。AMD 指引 Q3 出货,但首次亮相是7月23日的 keynote,届时会有更具体的性能和合作伙伴信息。

冷静看:不是"谁赢",而是"谁在什么场景下赢"

两个平台在不同负载类型上各有优势,这不是一场零和博弈:

  • 大模型推理、长上下文 Agent:Helios 的内存容量优势更实际,能减少跨机架切分
  • MoE 训练、大规模分布式训练:Vera Rubin 的互连带宽和训练吞吐优势明显
  • 生态成熟度和部署确定性:NVIDIA 仍然领先,尤其对企业用户而言

真正值得关注的问题不是"谁赢了这一代",而是:当AI芯片竞争的核心从"算力军备竞赛"转向"内存和互连的平衡术",整个行业的游戏规则正在被重写。 下一代的胜负手,可能不是谁的TFLOPS更高,而是谁能让万亿参数模型在单个机架上跑得最稳、最便宜。

---

基于 TechTimes、NVIDIA Newsroom 等多家媒体转述整理。

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。