Google 发布 Gemma 4 QAT 版：把 27B 专家混合模型压到 1GB，本地运行不再困难

分类: 生图平面类 |发布于: 6/6/2026 |最后更新: 6/6/2026

draft.md

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

2026年6月5日，Google 在官方博客发布了 Gemma 4 量化感知训练（QAT）检查点。 这套检查点支持两种格式：流行的 Q4_0 量化，以及专为移动端设计的新量化格式。其中 Gemma 4 E2B 模型的内存占用被压缩至仅 1GB——意味着过去只能在高配服务器上跑的大模型，现在可以塞进普通笔记本。这是 Google 两个月内对 Gemma 4 的第三次功能迭代，前两次分别是多 Token 预测（MTP）加速推理和扩展上下文窗口。

---

QAT 是什么？为什么比普通量化更好

传统后训练量化（PTQ）是在模型训练完成之后才做压缩，精度损失难以避免。QAT 的思路不同：在训练阶段就模拟量化过程，让模型从一开始就学会"适应低精度"，从而在压缩时保留更多有效信息。Google 在博客中形容，这是"让模型在受压状态下学会优雅"的设计哲学。

QAT 已在开源社区广泛验证，llama.cpp 和 vLLM 都已原生支持这次发布的检查点。

---

能用在哪里

| 场景 | 推荐工具 |

|------|---------|

| 桌面本地运行 | llama.cpp、Ollama、LM Studio |

| 移动/边缘部署 | Google LiteRT-LM 运行时 |

| Web 端运行 | Transformers.js |

| 服务端推理 | SGLang、vLLM（压缩张量已提供） |

对于非 Q4_0 格式需求，Google 还提供了未量化检查点，可自行转换。

---

对谁有意义

值得关注的群体：

想在消费级 GPU 或 16GB 内存笔记本上跑 27B 量级模型的开发者
隐私敏感场景（本地运行，数据不上传）
移动端或嵌入式设备部署需求
需要低延迟推理的端侧应用

对于大多数在云端 API 上跑模型的用户，这个更新的影响有限——它主要利好本地部署场景。

---

参考来源： Google 官方博客（2026-06-05）、Hacker News 热帖（254分/83评）

*基于 Google 官方博客及多家媒体转述整理。*

参考来源

https://blog.google/innovation-and-ai/technology/developers-tools/quantization-aware-training-gemma-4/

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。