AMD MI355X 推理实测:80% 的 Blackwell 性能,不到一半的价格
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
7月3日,AI 推理服务商 Wafer 发布了一份引人注目的基准测试报告:GLM-5.2 在 AMD Instinct MI355X 上跑出了 2626 tokens/s/node 的聚合吞吐量——约为 NVIDIA B200 实测性能的 80%,但硬件成本不到一半。这是首个第三方在 AMD MI355X 上完成前沿模型完整推理基准的工作,直接冲击了"NVIDIA 推理不可替代"的行业默认假设。
数字说话:80% 性能,2x+ 便宜
Wafer 在 TensorWave 提供的 AMD MI355X 服务器上测试了 GLM-5.2(智谱的 744B 参数 MoE 模型),核心数据:
- 聚合吞吐:2626 tok/s/node,2.4 requests/s 饱和,20k 输入 / 1k 输出,60% 缓存命中率
- 单流吞吐:213 tok/s(10k 输入 / 1.5k 输出,遵循 Artificial Analysis 标准)
- 首 token 延迟:p50 = 0.81s,p95 = 2.22s(饱和点)
- 性价比:约为 B200 的 80% 吞吐,但 MI355X 单卡价格约为 B300 的 2.75 倍便宜
这意味着:如果你愿意在软件栈上花调优时间,AMD 推理硬件的 token 经济性已经可以赢过 NVIDIA。
调优过程:硅片行,软件还得磨
Wafer 的报告最有价值的部分不是最终数字,而是达到这个数字的过程。它完整记录了 AMD 推理栈当前需要人工介入的环节——这对采购决策至关重要。
量化:Wafer 用 AMD Quark 工具将 GLM-5.2 的 bf16 权重转为 MXFP4 格式,与 Z.ai 官方 FP8 量化对比,在 GSM8K、GPQA-Diamond、tau2 上差异很小。
推理框架选择:三个候选——vLLM、ATOM、SGLang。vLLM 缺少 GLM MoE 架构的 MXFP4 路径;ATOM 在长上下文下出现输出退化;最终选了 SGLang。这个选择反映了一个普遍模式:原始加速器规格启动采购对话,但框架支持决定第一周能不能上线。
推测解码修复:SGLang 在 ROCm 上启用推测解码时遇到两个阻断。第一个,MTP head 的共享专家权重保持 bf16,而量化解码器用 MXFP4,Quark 记录的 bf16 异常层名和 SGLang 查找的模块前缀不一致,导致形状不匹配崩溃。Wafer 手动复制未量化层条目解决了。第二个,深层推测解码的融合多步元数据内核包含 CUDA 头文件,Wafer 加了 ROCm 守卫条件编译。这两个修复让单流吞吐提升了近 3 倍。
并行拓扑调整:8 卡张量并行(TP8)对单流解码有帮助,但聚合吞吐更好的配置是 TP4×DP2——从 1461 tok/s/node 提升到 1944 tok/s/node。
MoE 内核调优:GLM-5.2 的 fp4 MoE 路径在 SGLang 的 ROCm 镜像中使用了较慢的 FlyDSL 启发式回退。AITER 对 a8w8 和 fp8 路径有调优配置,但 fp4 形状需要手动选择。Wafer 为模型维度 6144、MoE 中间尺寸 2048、256 专家、top-8 路由调了内核选择,吞吐最终达到 2626 tok/s/node。
行业信号:推理采购决策正在变
这份基准测试的意义不在证明"AMD 比 NVIDIA 好"——它没有。它的意义在于把推理采购决策从"看规格表"推进到"算全链路成本"。
推理买家要的是便宜 token,不是峰值算力。NVIDIA 的 CUDA 生态让新模型从发布到生产部署的路径更短、摩擦更小,但硬件溢价和供应紧张正在把服务商推向替代方案。AMD 的 Instinct 加速器在内存容量和计算规格上已经具备竞争力,真正的瓶颈在软件栈。
关键变量是上游合并速度。Wafer 在这次测试中做的所有修复——ROCm 守卫、量化命名适配、MoE 内核选择——目前都是本地 patch。AMD 的真正进展取决于 SGLang、vLLM、ROCm 和内核库何时吸收这些修复。每合并一个,下一次部署的成本就更低;每留一个未合并,NVIDIA 的软件护城河就多一块砖。
竞争格局正在收窄。NVIDIA 仍拥有更干净的部署路径和更快的模型支持节奏。AMD 能在 token 经济性上赢,前提是工程团队有时间调栈、且调优工作能跨足够多的流量复用。对推理服务商来说,采购决策公式已经变成:GPU 价格 + 内核支持 + 框架成熟度 + 量化质量 + 服务延迟 + 工程师调优工时。
对谁有用
- 有工程能力调 ROCm 栈的推理服务商:如果你有 3-5 人的基础设施团队,能花 1-2 周做栈调优,MI355X 的 token 性价比很可能优于 Blackwell
- 追求 token 成本最优化的大规模部署:当模型固定、流量稳定、调优成果可复用时,AMD 的硬件价格优势会随规模放大
- NVIDIA 供应受限时的备选路径:Blackwell 产能和交付周期仍是瓶颈,AMD 提供了可用的替代产能
对谁暂时没用
- 小团队或快速上线需求:CUDA 生态的"开箱即用"仍是巨大优势,AMD 当前需要更多前期工程投入
- 需要广谱模型覆盖的场景:NVIDIA 的 day-0 模型支持更全面,新架构发布时 CUDA 适配通常最先就绪
- 对延迟极度敏感的在线服务:单封装内 die 间互连的延迟优势仍在 NVIDIA 一侧
---
*基于 Wafer 官方报告及 LavX News、GoKawiil、explainx.ai 等多家媒体转述整理。*
参考来源
- https://gokawiil.com/article/314001
- https://news.lavx.hu/article/amd-inference-economics-put-pressure-on-nvidia-s-software-moat
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。