AMD MI355X 推理实测：80% 的 Blackwell 性能，不到一半的价格

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

7月3日，AI 推理服务商 Wafer 发布了一份引人注目的基准测试报告：GLM-5.2 在 AMD Instinct MI355X 上跑出了 2626 tokens/s/node 的聚合吞吐量——约为 NVIDIA B200 实测性能的 80%，但硬件成本不到一半。这是首个第三方在 AMD MI355X 上完成前沿模型完整推理基准的工作，直接冲击了"NVIDIA 推理不可替代"的行业默认假设。

数字说话：80% 性能，2x+ 便宜

Wafer 在 TensorWave 提供的 AMD MI355X 服务器上测试了 GLM-5.2（智谱的 744B 参数 MoE 模型），核心数据：

聚合吞吐：2626 tok/s/node，2.4 requests/s 饱和，20k 输入 / 1k 输出，60% 缓存命中率
单流吞吐：213 tok/s（10k 输入 / 1.5k 输出，遵循 Artificial Analysis 标准）
首 token 延迟：p50 = 0.81s，p95 = 2.22s（饱和点）
性价比：约为 B200 的 80% 吞吐，但 MI355X 单卡价格约为 B300 的 2.75 倍便宜

这意味着：如果你愿意在软件栈上花调优时间，AMD 推理硬件的 token 经济性已经可以赢过 NVIDIA。

调优过程：硅片行，软件还得磨

Wafer 的报告最有价值的部分不是最终数字，而是达到这个数字的过程。它完整记录了 AMD 推理栈当前需要人工介入的环节——这对采购决策至关重要。

量化：Wafer 用 AMD Quark 工具将 GLM-5.2 的 bf16 权重转为 MXFP4 格式，与 Z.ai 官方 FP8 量化对比，在 GSM8K、GPQA-Diamond、tau2 上差异很小。

推理框架选择：三个候选——vLLM、ATOM、SGLang。vLLM 缺少 GLM MoE 架构的 MXFP4 路径；ATOM 在长上下文下出现输出退化；最终选了 SGLang。这个选择反映了一个普遍模式：原始加速器规格启动采购对话，但框架支持决定第一周能不能上线。

推测解码修复：SGLang 在 ROCm 上启用推测解码时遇到两个阻断。第一个，MTP head 的共享专家权重保持 bf16，而量化解码器用 MXFP4，Quark 记录的 bf16 异常层名和 SGLang 查找的模块前缀不一致，导致形状不匹配崩溃。Wafer 手动复制未量化层条目解决了。第二个，深层推测解码的融合多步元数据内核包含 CUDA 头文件，Wafer 加了 ROCm 守卫条件编译。这两个修复让单流吞吐提升了近 3 倍。

并行拓扑调整：8 卡张量并行（TP8）对单流解码有帮助，但聚合吞吐更好的配置是 TP4×DP2——从 1461 tok/s/node 提升到 1944 tok/s/node。

MoE 内核调优：GLM-5.2 的 fp4 MoE 路径在 SGLang 的 ROCm 镜像中使用了较慢的 FlyDSL 启发式回退。AITER 对 a8w8 和 fp8 路径有调优配置，但 fp4 形状需要手动选择。Wafer 为模型维度 6144、MoE 中间尺寸 2048、256 专家、top-8 路由调了内核选择，吞吐最终达到 2626 tok/s/node。

行业信号：推理采购决策正在变

这份基准测试的意义不在证明"AMD 比 NVIDIA 好"——它没有。它的意义在于把推理采购决策从"看规格表"推进到"算全链路成本"。

推理买家要的是便宜 token，不是峰值算力。NVIDIA 的 CUDA 生态让新模型从发布到生产部署的路径更短、摩擦更小，但硬件溢价和供应紧张正在把服务商推向替代方案。AMD 的 Instinct 加速器在内存容量和计算规格上已经具备竞争力，真正的瓶颈在软件栈。

关键变量是上游合并速度。Wafer 在这次测试中做的所有修复——ROCm 守卫、量化命名适配、MoE 内核选择——目前都是本地 patch。AMD 的真正进展取决于 SGLang、vLLM、ROCm 和内核库何时吸收这些修复。每合并一个，下一次部署的成本就更低；每留一个未合并，NVIDIA 的软件护城河就多一块砖。

竞争格局正在收窄。NVIDIA 仍拥有更干净的部署路径和更快的模型支持节奏。AMD 能在 token 经济性上赢，前提是工程团队有时间调栈、且调优工作能跨足够多的流量复用。对推理服务商来说，采购决策公式已经变成：GPU 价格 + 内核支持 + 框架成熟度 + 量化质量 + 服务延迟 + 工程师调优工时。

对谁有用

有工程能力调 ROCm 栈的推理服务商：如果你有 3-5 人的基础设施团队，能花 1-2 周做栈调优，MI355X 的 token 性价比很可能优于 Blackwell
追求 token 成本最优化的大规模部署：当模型固定、流量稳定、调优成果可复用时，AMD 的硬件价格优势会随规模放大
NVIDIA 供应受限时的备选路径：Blackwell 产能和交付周期仍是瓶颈，AMD 提供了可用的替代产能

对谁暂时没用

小团队或快速上线需求：CUDA 生态的"开箱即用"仍是巨大优势，AMD 当前需要更多前期工程投入
需要广谱模型覆盖的场景：NVIDIA 的 day-0 模型支持更全面，新架构发布时 CUDA 适配通常最先就绪
对延迟极度敏感的在线服务：单封装内 die 间互连的延迟优势仍在 NVIDIA 一侧

---

*基于 Wafer 官方报告及 LavX News、GoKawiil、explainx.ai 等多家媒体转述整理。*

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。