AI硬件设备

d-Matrix Corsair推理加速卡量产:不用HBM、不用GPU,AI推理有了新解法

2026年6月17日1 次阅读
d-Matrix Corsair推理加速卡量产:不用HBM、不用GPU,AI推理有了新解法

d-Matrix Corsair推理加速卡量产:不用HBM、不用GPU,AI推理有了新解法

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

6月9日,硅谷芯片创业公司d-Matrix宣布其Corsair推理加速平台进入全面量产阶段,首批产品将在今夏批量交付给超大规模云厂商、Neocloud和前沿AI实验室。这不是又一块想挑战NVIDIA训练霸权的GPU——Corsair从一开始就只做一件事:AI推理。

Corsair是什么:一块"不按套路出牌"的推理卡

Corsair的核心架构叫3DIMC(3D Digital In-Memory Compute),翻译过来就是"3D数字存内计算"。和GPU把数据从显存搬到计算单元不同,Corsair让计算直接发生在存储器里,省去了数据搬运的开销。

具体来说:

  • SRAM存内计算chiplet:片上性能内存带宽达1,200 TB/s,延迟极低
  • LP-DDR5大容量内存:单卡最高2TB容量,用来存放模型权重和KV Cache
  • 有机基板封装:不用CoWoS这样的先进封装,制造更简单
  • PCIe标准卡形态:插到标准服务器里就能用,无需液冷

制造方面,Corsair由TSMC在N6成熟制程上生产,Alchip Technologies负责代工。d-Matrix特意选择了成熟制程和有机基板——这不是妥协,而是为了供应链的可预测性。在HBM和CoWoS产能紧张到连NVIDIA都要排队的今天,这条路径意味着d-Matrix可以按计划交付,而不是跟着先进封装的排期走。

为什么需要一块"推理专用"的卡

GPU天生是为并行计算设计的,做训练很在行。但推理——尤其是大模型的decode阶段——瓶颈不在计算,在访存。每个token的生成都要读取一遍模型权重和KV Cache,计算量不大但数据搬运量巨大。GPU的HBM带宽虽然高,但在decode这种"读多算少"的场景里,计算单元大部分时间在等数据,效率并不高。

Corsair的思路是:既然瓶颈在内存,就让计算发生在内存旁边。SRAM的带宽远超HBM,LP-DDR5提供足够的容量放权重,两者组合在一起,正好适配decode阶段的需求特征。

10倍加速的真相:不是替代GPU,是配合GPU

d-Matrix最引人注目的数据来自独立测试机构Gimlet Labs的评测:在异构部署模式下(GPU + Corsair),一个原本需要24秒的AI响应被缩短到不到2秒——超过10倍的加速。

但这里的关键是"异构"。这个加速不是Corsair单卡跑出来的,而是GPU和Corsair分工协作的结果:

  • GPU负责prefill:接收prompt、计算初始KV Cache,这部分计算密集,GPU的强项
  • Corsair负责decode:逐token生成回答,这部分访存密集,Corsair的强项

这种"解耦推理"(disaggregated inference)的思路并不新鲜,Google、Meta都在研究,但d-Matrix是第一个提供量产硬件来跑这个方案的。随着Claude Code、OpenClaw等Agent应用爆发,交互式推理的延迟要求越来越苛刻——用户等24秒和等2秒,体验天差地别。

从卡到机架:SquadRack方案

d-Matrix不只卖卡。它的SquadRack参考设计集成了Corsair加速卡、JetStream高速网络和Aviator软件栈,与Arista、Broadcom、Supermicro合作打造完整机架方案。

今年4月,d-Matrix收购了GigaIO的数据中心业务,把一批有实战经验的系统集成工程师收入麾下,加速了SquadRack的落地。

配置从单机8卡到全机架64卡,支持模型从多模态Agent到100B参数推理:

| 配置 | 卡数 | 性能内存 | 适用场景 |

|------|------|----------|----------|

| 单机起步 | 8 | 16 GB | 多模态Agent |

| 双机 | 16 | 32 GB | 大规模多用户应用 |

| 半机架 | 32 | 64 GB | 蒸馏模型、推理、视频生成 |

| 全机架 | 64 | 128 GB | 100B参数企业级部署 |

所有配置都是风冷、标准PCIe服务器,不需要改造数据中心。

对行业意味着什么

推理专用芯片赛道有了第一个量产产品。 Groq的LPU还在规模化爬坡,Cerebras的晶圆级方案更偏研究侧,d-Matrix是第一个从"纸面参数"走到"量产发货"的推理专用芯片公司。

供应链创新同样重要。 在所有AI芯片公司都挤在HBM + CoWoS这条路上的时候,d-Matrix选择了SRAM + LP-DDR5 + 有机基板 + 成熟制程。这条路性能上限可能不如HBM方案,但交付确定性强得多——对于需要按时部署的数据中心客户来说,这比纸面峰值更重要。

异构推理范式正在成型。 GPU做训练和prefill,专用加速器做decode,这很可能成为未来推理集群的标准架构。NVIDIA自己也在推Blackwell的FP4推理优化,但架构上仍然是"通用GPU做所有事"的思路。d-Matrix代表的是另一种可能性:推理这件事,值得有专门的硬件来做。

还需要观察什么

  • 实际部署性能:Gimlet Labs的测试是受控环境,真实数据中心的表现需要客户验证
  • 软件生态:Aviator软件栈的成熟度、与主流推理框架(vLLM、TensorRT-LLM等)的兼容性
  • 竞争格局:Groq、Cerebras、Tenstorrent等推理专用芯片也在加速,d-Matrix先发但窗口不长
  • 商业模式:目前仅面向"选定合格客户",定价和供货规模未公开

---

*基于多家媒体转述整理,主要来源:d-Matrix官方新闻稿、TechPowerUp、igor'sLAB*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。