d-Matrix Corsair推理加速卡量产：不用HBM、不用GPU，AI推理有了新解法

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

6月9日，硅谷芯片创业公司d-Matrix宣布其Corsair推理加速平台进入全面量产阶段，首批产品将在今夏批量交付给超大规模云厂商、Neocloud和前沿AI实验室。这不是又一块想挑战NVIDIA训练霸权的GPU——Corsair从一开始就只做一件事：AI推理。

Corsair是什么：一块"不按套路出牌"的推理卡

Corsair的核心架构叫3DIMC（3D Digital In-Memory Compute），翻译过来就是"3D数字存内计算"。和GPU把数据从显存搬到计算单元不同，Corsair让计算直接发生在存储器里，省去了数据搬运的开销。

具体来说：

SRAM存内计算chiplet：片上性能内存带宽达1,200 TB/s，延迟极低
LP-DDR5大容量内存：单卡最高2TB容量，用来存放模型权重和KV Cache
有机基板封装：不用CoWoS这样的先进封装，制造更简单
PCIe标准卡形态：插到标准服务器里就能用，无需液冷

制造方面，Corsair由TSMC在N6成熟制程上生产，Alchip Technologies负责代工。d-Matrix特意选择了成熟制程和有机基板——这不是妥协，而是为了供应链的可预测性。在HBM和CoWoS产能紧张到连NVIDIA都要排队的今天，这条路径意味着d-Matrix可以按计划交付，而不是跟着先进封装的排期走。

为什么需要一块"推理专用"的卡

GPU天生是为并行计算设计的，做训练很在行。但推理——尤其是大模型的decode阶段——瓶颈不在计算，在访存。每个token的生成都要读取一遍模型权重和KV Cache，计算量不大但数据搬运量巨大。GPU的HBM带宽虽然高，但在decode这种"读多算少"的场景里，计算单元大部分时间在等数据，效率并不高。

Corsair的思路是：既然瓶颈在内存，就让计算发生在内存旁边。SRAM的带宽远超HBM，LP-DDR5提供足够的容量放权重，两者组合在一起，正好适配decode阶段的需求特征。

10倍加速的真相：不是替代GPU，是配合GPU

d-Matrix最引人注目的数据来自独立测试机构Gimlet Labs的评测：在异构部署模式下（GPU + Corsair），一个原本需要24秒的AI响应被缩短到不到2秒——超过10倍的加速。

但这里的关键是"异构"。这个加速不是Corsair单卡跑出来的，而是GPU和Corsair分工协作的结果：

GPU负责prefill：接收prompt、计算初始KV Cache，这部分计算密集，GPU的强项
Corsair负责decode：逐token生成回答，这部分访存密集，Corsair的强项

这种"解耦推理"（disaggregated inference）的思路并不新鲜，Google、Meta都在研究，但d-Matrix是第一个提供量产硬件来跑这个方案的。随着Claude Code、OpenClaw等Agent应用爆发，交互式推理的延迟要求越来越苛刻——用户等24秒和等2秒，体验天差地别。

从卡到机架：SquadRack方案

d-Matrix不只卖卡。它的SquadRack参考设计集成了Corsair加速卡、JetStream高速网络和Aviator软件栈，与Arista、Broadcom、Supermicro合作打造完整机架方案。

今年4月，d-Matrix收购了GigaIO的数据中心业务，把一批有实战经验的系统集成工程师收入麾下，加速了SquadRack的落地。

配置从单机8卡到全机架64卡，支持模型从多模态Agent到100B参数推理：

| 配置 | 卡数 | 性能内存 | 适用场景 |

|------|------|----------|----------|

| 单机起步 | 8 | 16 GB | 多模态Agent |

| 双机 | 16 | 32 GB | 大规模多用户应用 |

| 半机架 | 32 | 64 GB | 蒸馏模型、推理、视频生成 |

| 全机架 | 64 | 128 GB | 100B参数企业级部署 |

所有配置都是风冷、标准PCIe服务器，不需要改造数据中心。

对行业意味着什么

推理专用芯片赛道有了第一个量产产品。 Groq的LPU还在规模化爬坡，Cerebras的晶圆级方案更偏研究侧，d-Matrix是第一个从"纸面参数"走到"量产发货"的推理专用芯片公司。

供应链创新同样重要。 在所有AI芯片公司都挤在HBM + CoWoS这条路上的时候，d-Matrix选择了SRAM + LP-DDR5 + 有机基板 + 成熟制程。这条路性能上限可能不如HBM方案，但交付确定性强得多——对于需要按时部署的数据中心客户来说，这比纸面峰值更重要。

异构推理范式正在成型。 GPU做训练和prefill，专用加速器做decode，这很可能成为未来推理集群的标准架构。NVIDIA自己也在推Blackwell的FP4推理优化，但架构上仍然是"通用GPU做所有事"的思路。d-Matrix代表的是另一种可能性：推理这件事，值得有专门的硬件来做。

还需要观察什么

实际部署性能：Gimlet Labs的测试是受控环境，真实数据中心的表现需要客户验证
软件生态：Aviator软件栈的成熟度、与主流推理框架（vLLM、TensorRT-LLM等）的兼容性
竞争格局：Groq、Cerebras、Tenstorrent等推理专用芯片也在加速，d-Matrix先发但窗口不长
商业模式：目前仅面向"选定合格客户"，定价和供货规模未公开

---

*基于多家媒体转述整理，主要来源：d-Matrix官方新闻稿、TechPowerUp、igor'sLAB*

参考来源

https://www.d-matrix.ai/announcements/d-matrix-corsair-ai-inference-platform-enters-full-production-to-meet-customer-demand/

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。