AMD 发布 Instinct MI350P:CDNA 4 首次走进标准 PCIe 插槽,144GB HBM3E 直面 H200 NVL
AMD 发布 Instinct MI350P:CDNA 4 首次走进标准 PCIe 插槽,144GB HBM3E 直面 H200 NVL
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
AMD 推出了四年来首款 PCIe 插卡式 Instinct 加速卡——MI350P。这张卡把 CDNA 4 架构和 144GB HBM3E 塞进了标准双槽风冷形态,可以直接插进现有的企业服务器,不需要液冷,不需要 OAM 机架改造。对于一直在观望 AI 推理本地部署的企业来说,这张卡降低了一个关键的门槛。
规格:CDNA 4 的一半,但依然够狠
MI350P 本质上是 MI355X 的"半卡版"。128 个 Compute Unit(MI355X 是完整 CDNA 4),8192 个 Stream Processor,512 个 Matrix Core,2.2 GHz 加速频率。基于 TSMC 3nm + 6nm 工艺。
内存方面:144GB HBM3E,4096-bit 接口,4 TB/s 峰值带宽,128MB 末级缓存,全芯片 ECC。算力峰值:4.6 PFLOPS(MXFP4)、2.3 PFLOPS(FP8)、1.15 PFLOPS(FP16/BF16)。TBP 600W,可配置为 450W 低功耗模式以适配散热受限的机箱。使用 12V-2×6 供电接口——这也是 Instinct 产品线首次采用该接口。
为什么这张卡重要
过去几年,AMD 的 Instinct 加速卡几乎都是 OAM 模块形态,需要专用液冷基础设施。MI210 是上一款 PCIe Instinct,已经是 2022 年的事了。
MI350P 改变了这件事。它采用标准 10.5 英寸双槽 FHHL 形态,适配任何能装 8 张 600W 级 PCIe 卡的风冷服务器——比如 Dell PowerEdge XE7740 和 HPE ProLiant DL380a Gen12。企业不需要改造机房,不需要换冷却方案,直接插卡就能跑。
实际部署中,8 张 MI350P 装进一台 2U 风冷机箱,就是 1152GB HBM3E 和 32 TB/s 聚合带宽。这个配置足以在单机箱内以 MXFP4 精度跑万亿参数模型推理——不需要 NVLink,不需要 OAM Fabric。对于想做本地 AI 推理的企业,这很实在。
对标 H200 NVL:算力领先,互连取舍
AMD 明确把 MI350P 对准 NVIDIA H200 NVL。对比数据:
- BF16/FP16:MI350P 1150 TFLOPS vs H200 NVL 836 TFLOPS,领先约 40%
- FP8:MI350P 2300 TFLOPS vs H200 NVL 1671 TFLOPS,领先约 38%
- 内存带宽:MI350P 4.0 TB/s vs H200 NVL 4.8 TB/s,落后约 17%
- 内存容量:MI350P 144GB vs H200 NVL 141GB,基本持平
- 互连:MI350P 无高速直连(仅 PCIe 5.0 x16,128 GB/s),H200 NVL 支持 2/4 路 NVLink Bridge(900 GB/s)
互连带宽是 MI350P 最明显的短板。没有 Infinity Fabric,卡间通信只能走 PCIe 5.0。对于需要大规模张量并行的训练任务,这确实是瓶颈。但 MI350P 的定位本就不是训练——它面向推理和 RAG 管道,在这些场景下,单卡或少数卡的大内存容量往往比互连带宽更重要。
值得注意的是,The Register 获取的 AMD 实测数据(非峰值)显示:BF16 交付 713 TFLOPS、FP8 交付 1529 TFLOPS、MXFP4 交付 2299 TFLOPS——大约是峰值的 60-65%。这是更接近真实工作负载的数字。
限制与待观察项
定价未公布。 H200 NVL 当前市场价在 $30-40K 区间。MI350P 能否以价格优势撬动市场,定价策略是关键变量。
ROCm 生态仍需追赶。 AMD 强调开源 ROCm 栈和无成本开发环境是差异化优势,但 CUDA 的生态领先仍然是客观现实。企业在切换时需要评估软件兼容性和迁移成本。
理论 vs 实际。 40% 的性能领先是理论峰值对比,实际工作负载中的差距需要第三方基准测试验证。
行业大背景
MI350P 不是 AMD AI 硬件路线的全部,而是一个"中间地带"产品。AMD 真正的重头戏——Helios 机架级平台(72 张 MI455X,432GB HBM4,CDNA 5,2.9 EFLOPS FP4)计划 H2 2026 出货,瞄准超大规模数据中心。NVIDIA 的 Rubin 平台(50 PFLOPS FP4/卡,288GB HBM4)也已进入量产阶段。
但在超大规模之外,有大量企业想在不改造机房的前提下跑 AI 推理。MI350P 填补了 AMD 产品线中这块空白——标准服务器 + 高端推理加速卡,这个市场此前基本被 NVIDIA H200 NVL 独占。
基于多家媒体转述整理。
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。