Gemma4 12B 如何跑在 16G 显存上？

Google 发布了 Gemma 4 的一个新模型，12B 参数，看介绍不是 MoE 。
https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

看 HF 和 Kaggle 上都是 BF16 数据类型，权重文件大小 23.9GB 左右。
https://huggingface.co/google/gemma-4-12B-it/tree/main
https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it

Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory.

这是怎么做到能在 16G 显存上跑的？
还是说 BF16 的不能跑，要 FP8 量化的才行？但这种量化之后能在 16G 卡上跑的模型很多了，还有很多参数量更大的模型。

量化

显存

模型

25 replies • 2026-06-09 09:35:26 +08:00

Seanfuck

6 days ago

一般是量化了；还有就是 GPU 卸载，显存只加载一部分权重。

chenY520

6 days ago

量化版的

JerningChan

6 days ago

12b 的参数够看吗？我感觉怎么也得 27b 起步的才好用吧？

sharpy

6 days ago

q4 量化

sagnitude

6 days ago

这种小卡跑模型都是跑个 Q4 玩玩的，别说 16 了，Q8 都没法玩。

kennylam777

6 days ago

Gemma4 12B Q4 GGUF 我測過是能跑得動 Github Copilot 的 tool use, 32GB 的 laptop 勉強能跑還有 ctx 65536, 小模型用輕量的 agent 例如 pi.dev 效果會更好

FP8 就留給 RTX Spark 的 laptop 吧, 5090 Mobile 24GB 也許還可以?

Gemma4/Qwen3.5 3.6 比上年的 Gemma 3/Qwen3 都強很多, 但 LLM 愈大愈強是必然的, 我用 5090 Desktop 還是在用 Qwen 3.6 35B A3B NVFP4 才算滿意, KV 都不敢壓

cin

6 days ago

Q4 量化不到 8G, 直接用 ollama
`ollama run gemma4:12b`

BingoXuan

6 days ago

gemma 真的没用心做。openrouter 的 api 测试 3.6 27B 都比 31B 好。最近一直测试 Q6_K 量化版本，加了 MTP 加速后，质量并没有损失太多。可惜 MTP 没有视觉，不然加上 web search ，几乎可以和 deepseek4 pro 一拼

jhytxy

6 days ago

q4 的不行,跟原版比智商差不少
q6_K_XL 凑合
q8 差不多原版.最少上 q6

nutting

6 days ago

16G 显存，什么模型和方式可以没问题运行 cc 的？光输出文字都很轻松，调用 tools 就不行了

4641585

6 days ago

LM Studio 里用 lmstudio-community/gemma-4-12B-it-GGUF 跑起来了，硬件是
机带 RAM 32.0 GB (31.2 GB 可用)
图形卡 NVIDIA GeForce RTX 4060 Laptop GPU (8 GB)
AMD Radeon 780M Graphics (411 MB)

4641585

6 days ago

@4641585
处理器 AMD Ryzen 9 7940H w/ Radeon 780M Graphics (4.00 GHz)
机带 RAM 32.0 GB (31.2 GB 可用)
图形卡 NVIDIA GeForce RTX 4060 Laptop GPU (8 GB)
AMD Radeon 780M Graphics (411 MB)