Google发布DiffusionGemma：26B开源模型用扩散代替逐词生成，速度提升4倍

Google发布DiffusionGemma：26B开源模型用"扩散"代替"逐词生成"，速度提升4倍

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

6月10日，Google正式发布DiffusionGemma，一款26B参数Mixture-of-Experts（MoE）架构的开源实验模型。最核心的变化在于生成方式：它不再像传统大语言模型那样逐词预测（自回归），而是用"文本扩散"技术一次性生成整块文本。这种架构转换带来了显著的效率提升——Google官方数据显示，在RTX 5090单卡上速度达700+ tokens/s，在NVIDIA H100上更可达1000+ tokens/s，是同尺寸自回归模型的约4倍。该模型已开源（Apache 2.0许可），权重可在Hugging Face直接下载。

速度的突破来自架构本身。传统自回归LLM的推理瓶颈在内存带宽（memory-bandwidth），而DiffusionGemma将瓶颈转移到计算（compute），恰好是GPU的优势区间。Google还与NVIDIA合作，针对Hopper和Blackwell架构做了NVFP4低精度优化，配合vLLM（由Red Hat提供集成支持）、MLX（Apple Silicon）、llama.cpp等推理框架使用。同时提供针对消费级GPU的量化版本，支持RTX 5090/4090，以及本地桌面系统DGX Spark。开发者还可以用Unsloth或NVIDIA NeMo进行微调。

DiffusionGemma主要面向研究人员和追求高吞吐的开发者。它的定位是"实验性"（experimental），Google同时也在更新Gemma 4自回归模型系列——两者互为补充：Gemma 4保证输出质量，DiffusionGemma主打推理速度。典型适用场景包括内联编辑、快速迭代、非线性文本结构生成，以及需要本地部署、低延迟的交互式AI工作流。对于有生产级需求的场景，仍建议使用Gemma 4。

从行业角度看，文本扩散生成是LLM领域的新方向探索，Google将此技术从Gemini研究落地到开源Gemma生态，意味着技术路径正在从"更大模型"转向"更高效推理"。后续若该方向被社区广泛采用，可能改变本地推理和交互式AI的落地方式。

参考来源

https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。