Google发布DiffusionGemma:26B开源模型用"扩散"代替"逐词生成",速度提升4倍
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
6月10日,Google正式发布DiffusionGemma,一款26B参数Mixture-of-Experts(MoE)架构的开源实验模型。最核心的变化在于生成方式:它不再像传统大语言模型那样逐词预测(自回归),而是用"文本扩散"技术一次性生成整块文本。这种架构转换带来了显著的效率提升——Google官方数据显示,在RTX 5090单卡上速度达700+ tokens/s,在NVIDIA H100上更可达1000+ tokens/s,是同尺寸自回归模型的约4倍。该模型已开源(Apache 2.0许可),权重可在Hugging Face直接下载。
速度的突破来自架构本身。传统自回归LLM的推理瓶颈在内存带宽(memory-bandwidth),而DiffusionGemma将瓶颈转移到计算(compute),恰好是GPU的优势区间。Google还与NVIDIA合作,针对Hopper和Blackwell架构做了NVFP4低精度优化,配合vLLM(由Red Hat提供集成支持)、MLX(Apple Silicon)、llama.cpp等推理框架使用。同时提供针对消费级GPU的量化版本,支持RTX 5090/4090,以及本地桌面系统DGX Spark。开发者还可以用Unsloth或NVIDIA NeMo进行微调。
DiffusionGemma主要面向研究人员和追求高吞吐的开发者。它的定位是"实验性"(experimental),Google同时也在更新Gemma 4自回归模型系列——两者互为补充:Gemma 4保证输出质量,DiffusionGemma主打推理速度。典型适用场景包括内联编辑、快速迭代、非线性文本结构生成,以及需要本地部署、低延迟的交互式AI工作流。对于有生产级需求的场景,仍建议使用Gemma 4。
从行业角度看,文本扩散生成是LLM领域的新方向探索,Google将此技术从Gemini研究落地到开源Gemma生态,意味着技术路径正在从"更大模型"转向"更高效推理"。后续若该方向被社区广泛采用,可能改变本地推理和交互式AI的落地方式。
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。