AMD 发布 Instinct MI350P：CDNA 4 首次走进标准 PCIe 插槽，144GB HBM3E 直面 H200 NVL

分类: AI硬件设备 |发布于: 5/10/2026 |最后更新: 5/10/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

AMD 推出了四年来首款 PCIe 插卡式 Instinct 加速卡——MI350P。这张卡把 CDNA 4 架构和 144GB HBM3E 塞进了标准双槽风冷形态，可以直接插进现有的企业服务器，不需要液冷，不需要 OAM 机架改造。对于一直在观望 AI 推理本地部署的企业来说，这张卡降低了一个关键的门槛。

规格：CDNA 4 的一半，但依然够狠

MI350P 本质上是 MI355X 的"半卡版"。128 个 Compute Unit（MI355X 是完整 CDNA 4），8192 个 Stream Processor，512 个 Matrix Core，2.2 GHz 加速频率。基于 TSMC 3nm + 6nm 工艺。

内存方面：144GB HBM3E，4096-bit 接口，4 TB/s 峰值带宽，128MB 末级缓存，全芯片 ECC。算力峰值：4.6 PFLOPS（MXFP4）、2.3 PFLOPS（FP8）、1.15 PFLOPS（FP16/BF16）。TBP 600W，可配置为 450W 低功耗模式以适配散热受限的机箱。使用 12V-2×6 供电接口——这也是 Instinct 产品线首次采用该接口。

为什么这张卡重要

过去几年，AMD 的 Instinct 加速卡几乎都是 OAM 模块形态，需要专用液冷基础设施。MI210 是上一款 PCIe Instinct，已经是 2022 年的事了。

MI350P 改变了这件事。它采用标准 10.5 英寸双槽 FHHL 形态，适配任何能装 8 张 600W 级 PCIe 卡的风冷服务器——比如 Dell PowerEdge XE7740 和 HPE ProLiant DL380a Gen12。企业不需要改造机房，不需要换冷却方案，直接插卡就能跑。

实际部署中，8 张 MI350P 装进一台 2U 风冷机箱，就是 1152GB HBM3E 和 32 TB/s 聚合带宽。这个配置足以在单机箱内以 MXFP4 精度跑万亿参数模型推理——不需要 NVLink，不需要 OAM Fabric。对于想做本地 AI 推理的企业，这很实在。

对标 H200 NVL：算力领先，互连取舍

AMD 明确把 MI350P 对准 NVIDIA H200 NVL。对比数据：

BF16/FP16：MI350P 1150 TFLOPS vs H200 NVL 836 TFLOPS，领先约 40%
FP8：MI350P 2300 TFLOPS vs H200 NVL 1671 TFLOPS，领先约 38%
内存带宽：MI350P 4.0 TB/s vs H200 NVL 4.8 TB/s，落后约 17%
内存容量：MI350P 144GB vs H200 NVL 141GB，基本持平
互连：MI350P 无高速直连（仅 PCIe 5.0 x16，128 GB/s），H200 NVL 支持 2/4 路 NVLink Bridge（900 GB/s）

互连带宽是 MI350P 最明显的短板。没有 Infinity Fabric，卡间通信只能走 PCIe 5.0。对于需要大规模张量并行的训练任务，这确实是瓶颈。但 MI350P 的定位本就不是训练——它面向推理和 RAG 管道，在这些场景下，单卡或少数卡的大内存容量往往比互连带宽更重要。

值得注意的是，The Register 获取的 AMD 实测数据（非峰值）显示：BF16 交付 713 TFLOPS、FP8 交付 1529 TFLOPS、MXFP4 交付 2299 TFLOPS——大约是峰值的 60-65%。这是更接近真实工作负载的数字。

限制与待观察项

定价未公布。 H200 NVL 当前市场价在 $30-40K 区间。MI350P 能否以价格优势撬动市场，定价策略是关键变量。

ROCm 生态仍需追赶。 AMD 强调开源 ROCm 栈和无成本开发环境是差异化优势，但 CUDA 的生态领先仍然是客观现实。企业在切换时需要评估软件兼容性和迁移成本。

理论 vs 实际。 40% 的性能领先是理论峰值对比，实际工作负载中的差距需要第三方基准测试验证。

行业大背景

MI350P 不是 AMD AI 硬件路线的全部，而是一个"中间地带"产品。AMD 真正的重头戏——Helios 机架级平台（72 张 MI455X，432GB HBM4，CDNA 5，2.9 EFLOPS FP4）计划 H2 2026 出货，瞄准超大规模数据中心。NVIDIA 的 Rubin 平台（50 PFLOPS FP4/卡，288GB HBM4）也已进入量产阶段。

但在超大规模之外，有大量企业想在不改造机房的前提下跑 AI 推理。MI350P 填补了 AMD 产品线中这块空白——标准服务器 + 高端推理加速卡，这个市场此前基本被 NVIDIA H200 NVL 独占。

基于多家媒体转述整理。

参考来源

https://www.tomshardware.com/pc-components/gpus/amd-announces-mi350p-pcie-ai-accelerator-card-with-144gb-of-hbm3e-roughly-40-percent-faster-in-fp16-and-fp8-theoretical-compute-compared-to-nvidias-h200-nvl-competitor

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。