Google 发布 Gemma 4 QAT 版:把 27B 专家混合模型压到 1GB,本地运行不再困难

分类: 生图平面类 |发布于: 6/6/2026 |最后更新: 6/6/2026
draft.md

draft.md

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

2026年6月5日,Google 在官方博客发布了 Gemma 4 量化感知训练(QAT)检查点。 这套检查点支持两种格式:流行的 Q4_0 量化,以及专为移动端设计的新量化格式。其中 Gemma 4 E2B 模型的内存占用被压缩至仅 1GB——意味着过去只能在高配服务器上跑的大模型,现在可以塞进普通笔记本。这是 Google 两个月内对 Gemma 4 的第三次功能迭代,前两次分别是多 Token 预测(MTP)加速推理和扩展上下文窗口。

---

QAT 是什么?为什么比普通量化更好

传统后训练量化(PTQ)是在模型训练完成之后才做压缩,精度损失难以避免。QAT 的思路不同:在训练阶段就模拟量化过程,让模型从一开始就学会"适应低精度",从而在压缩时保留更多有效信息。Google 在博客中形容,这是"让模型在受压状态下学会优雅"的设计哲学。

QAT 已在开源社区广泛验证,llama.cpp 和 vLLM 都已原生支持这次发布的检查点。

---

能用在哪里

| 场景 | 推荐工具 |

|------|---------|

| 桌面本地运行 | llama.cpp、Ollama、LM Studio |

| 移动/边缘部署 | Google LiteRT-LM 运行时 |

| Web 端运行 | Transformers.js |

| 服务端推理 | SGLang、vLLM(压缩张量已提供) |

对于非 Q4_0 格式需求,Google 还提供了未量化检查点,可自行转换。

---

对谁有意义

值得关注的群体:

  • 想在消费级 GPU 或 16GB 内存笔记本上跑 27B 量级模型的开发者
  • 隐私敏感场景(本地运行,数据不上传)
  • 移动端或嵌入式设备部署需求
  • 需要低延迟推理的端侧应用

对于大多数在云端 API 上跑模型的用户,这个更新的影响有限——它主要利好本地部署场景。

---

参考来源: Google 官方博客(2026-06-05)、Hacker News 热帖(254分/83评)

*基于 Google 官方博客及多家媒体转述整理。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。