CatCode
V2EX  ›  Local LLM

Gemma4 12B 如何跑在 16G 显存上?

  •  
  •   CatCode · 6 days ago · 4635 views

    Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。
    https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

    看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。
    https://huggingface.co/google/gemma-4-12B-it/tree/main
    https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it

    Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory.

    这是怎么做到能在 16G 显存上跑的?
    还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。

    25 replies    2026-06-09 09:35:26 +08:00
    Seanfuck
        1
    Seanfuck  
       6 days ago
    一般是量化了;还有就是 GPU 卸载,显存只加载一部分权重。
    chenY520
        2
    chenY520  
       6 days ago
    量化版的
    JerningChan
        3
    JerningChan  
       6 days ago
    12b 的参数够看吗?我感觉怎么也得 27b 起步的才好用吧?
    sharpy
        4
    sharpy  
       6 days ago
    q4 量化
    sagnitude
        5
    sagnitude  
       6 days ago
    这种小卡跑模型都是跑个 Q4 玩玩的,别说 16 了,Q8 都没法玩。
    kennylam777
        6
    kennylam777  
       6 days ago
    Gemma4 12B Q4 GGUF 我測過是能跑得動 Github Copilot 的 tool use, 32GB 的 laptop 勉強能跑還有 ctx 65536, 小模型用輕量的 agent 例如 pi.dev 效果會更好

    FP8 就留給 RTX Spark 的 laptop 吧, 5090 Mobile 24GB 也許還可以?

    Gemma4/Qwen3.5 3.6 比上年的 Gemma 3/Qwen3 都強很多, 但 LLM 愈大愈強是必然的, 我用 5090 Desktop 還是在用 Qwen 3.6 35B A3B NVFP4 才算滿意, KV 都不敢壓
    cin
        7
    cin  
       6 days ago
    Q4 量化不到 8G, 直接用 ollama
    `ollama run gemma4:12b`
    BingoXuan
        8
    BingoXuan  
       6 days ago
    gemma 真的没用心做。openrouter 的 api 测试 3.6 27B 都比 31B 好。最近一直测试 Q6_K 量化版本,加了 MTP 加速后,质量并没有损失太多。可惜 MTP 没有视觉,不然加上 web search ,几乎可以和 deepseek4 pro 一拼
    jhytxy
        9
    jhytxy  
       6 days ago
    q4 的不行,跟原版比智商差不少
    q6_K_XL 凑合
    q8 差不多原版.最少上 q6
    nutting
        10
    nutting  
       6 days ago
    16G 显存,什么模型和方式可以没问题运行 cc 的?光输出文字都很轻松,调用 tools 就不行了
    4641585
        11
    4641585  
       6 days ago
    LM Studio 里用 lmstudio-community/gemma-4-12B-it-GGUF 跑起来了,硬件是
    机带 RAM 32.0 GB (31.2 GB 可用)
    图形卡 NVIDIA GeForce RTX 4060 Laptop GPU (8 GB)
    AMD Radeon 780M Graphics (411 MB)
    4641585
        12
    4641585  
       6 days ago
    @4641585
    处理器 AMD Ryzen 9 7940H w/ Radeon 780M Graphics (4.00 GHz)
    机带 RAM 32.0 GB (31.2 GB 可用)
    图形卡 NVIDIA GeForce RTX 4060 Laptop GPU (8 GB)
    AMD Radeon 780M Graphics (411 MB)
    summerLast
        13
    summerLast  
       6 days ago
    Q4 量化后模型尺寸 6-7GB , 并非是 float16 的 12*2 的 24GB
    CatCode
        14
    CatCode  
    OP
       6 days ago
    @4641585 lmstudio-community/gemma-4-12B-it-GGUF 这个我看了 最大的是 8bit 量化的
    coefu
        15
    coefu  
       6 days ago   ❤️ 1
    这个 12B 昨天刚出,我就测了,16G 太尴尬了,context 完全跑不起来。起码要 32G ,多出来的 20G 跑 context 。
    Livid
        16
    Livid  
    MOD
    PRO
       6 days ago
    Chicagoake
        17
    Chicagoake  
       6 days ago
    @JerningChan 不够,很笨的。
    oldlamp
        18
    oldlamp  
       6 days ago
    @coefu 确实如此,更大的显存容量用于上下文,能带来显著的 long horizon 场景的提升
    unclemcz
        19
    unclemcz  
       6 days ago via Android
    我通过 ollama 安装了 12b 和 e4b ,12b 占用 6g 显存左右,e4b 差不多只有 4g 不到的样子,e4b 的速度明显快很多。显卡是 4070laptop(8g)。
    yuping913
        20
    yuping913  
       6 days ago
    @BingoXuan 链接 mmproj 就有视觉,MTP 的也可以,你可以问问 AI 怎么加,很简单的。
    BingoXuan
        21
    BingoXuan  
       6 days ago
    @yuping913
    unsloth 的 mtp 量化提示暂不支持 mmproj ,周末有空研究一下
    kassadin
        22
    kassadin  
       6 days ago
    m1,占用 10g 内存, q4,14tok/s
    GeorgeV
        23
    GeorgeV  
       6 days ago
    "Quantization-Aware Training (QAT) makes it possible to run Gemma 4 26B-A4B on 16GB RAM."

    https://unsloth.ai/docs/models/gemma-4/qat
    zzutmebwd
        25
    zzutmebwd  
       2 days ago
    16g 没啥问题吧,nvfp4 不到 11g 。实测有点拉,还不如 qwen3.5 9b
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   916 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 67ms · UTC 21:04 · PVG 05:04 · LAX 14:04 · JFK 17:04
    ♥ Do have faith in what you're doing.