Google 发布 Gemma 4 QAT 版:把 27B 专家混合模型压到 1GB,本地运行不再困难
draft.md
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
2026年6月5日,Google 在官方博客发布了 Gemma 4 量化感知训练(QAT)检查点。 这套检查点支持两种格式:流行的 Q4_0 量化,以及专为移动端设计的新量化格式。其中 Gemma 4 E2B 模型的内存占用被压缩至仅 1GB——意味着过去只能在高配服务器上跑的大模型,现在可以塞进普通笔记本。这是 Google 两个月内对 Gemma 4 的第三次功能迭代,前两次分别是多 Token 预测(MTP)加速推理和扩展上下文窗口。
---
QAT 是什么?为什么比普通量化更好
传统后训练量化(PTQ)是在模型训练完成之后才做压缩,精度损失难以避免。QAT 的思路不同:在训练阶段就模拟量化过程,让模型从一开始就学会"适应低精度",从而在压缩时保留更多有效信息。Google 在博客中形容,这是"让模型在受压状态下学会优雅"的设计哲学。
QAT 已在开源社区广泛验证,llama.cpp 和 vLLM 都已原生支持这次发布的检查点。
---
能用在哪里
| 场景 | 推荐工具 |
|------|---------|
| 桌面本地运行 | llama.cpp、Ollama、LM Studio |
| 移动/边缘部署 | Google LiteRT-LM 运行时 |
| Web 端运行 | Transformers.js |
| 服务端推理 | SGLang、vLLM(压缩张量已提供) |
对于非 Q4_0 格式需求,Google 还提供了未量化检查点,可自行转换。
---
对谁有意义
值得关注的群体:
- 想在消费级 GPU 或 16GB 内存笔记本上跑 27B 量级模型的开发者
- 隐私敏感场景(本地运行,数据不上传)
- 移动端或嵌入式设备部署需求
- 需要低延迟推理的端侧应用
对于大多数在云端 API 上跑模型的用户,这个更新的影响有限——它主要利好本地部署场景。
---
参考来源: Google 官方博客(2026-06-05)、Hacker News 热帖(254分/83评)
*基于 Google 官方博客及多家媒体转述整理。*
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。