V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
unt
V2EX  ›  程序员

Gemma 4 31B 大概什么水平,本地部署是不是又成为现实了

  •  
  •   unt · 17 小时 49 分钟前 · 2504 次点击
    22 条回复    2026-04-04 16:35:56 +08:00
    philobscur
        1
    philobscur  
       16 小时 39 分钟前
    各项评分也就和 qwen3.5 27b 不相上下的水平,已经在等 qwen3.6 了
    tomchen
        2
    tomchen  
       16 小时 25 分钟前
    写码离 kimi 、glm 等开源最好的还差一截吧?( Qwen Coder 似乎也差一截)
    unt
        3
    unt  
    OP
       16 小时 22 分钟前 via iPhone
    @tomchen 一般用它不会用来写代码吧
    tomchen
        4
    tomchen  
       16 小时 12 分钟前
    @unt 哦不清楚。。不过我再看一眼 Gemma 4 的介绍 https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/ 他其实主打的是执行任务、tool calling ,那和 code 也算是一类东西吧,https://arena.ai/leaderboard/code Arena 测试就把他们作为一类
    coefu
        5
    coefu  
       16 小时 11 分钟前
    非常强悍,g 厂出手,都是弟弟。

    31B ,要真正跑起 256k 的 context ,Q8 起码要 64G 显存。

    对于一般 web 代码来说,体现不出来它的上限。当然,一般人也用不到它的上限。

    现在打榜的 benchmark ,都是对标 博士级别的水平,只有你的 case 是真正的挑战,才知道和别的差距。
    coefu
        6
    coefu  
       16 小时 10 分钟前   ❤️ 1
    @philobscur qwen3.5 就是阿里开源的最后绝唱了,你还等什么 3.6 咯,事情都搞不明白。
    coefu
        7
    coefu  
       16 小时 4 分钟前
    @unt 当前开源里,普罗大众能用到的最强悍模型了。2* 2080ti 22g ,不到 4k 的成本,跑 31B Q8 ,估计能有个 10 Token/s 的速度,凑合能用。
    coefu
        8
    coefu  
       16 小时 0 分钟前
    @unt 我觉得,和 gemini 来比,gemini 现在搞的这种情绪价值提供,反而让人不客观了。今天,试用了一下午 gemma4 31B,可能是 system prompt 没有设置什么情绪相关,反而更理性客观,没有 gemini 的夸夸味。
    wwhc
        9
    wwhc  
       15 小时 30 分钟前
    差一点就能赶上 Qwen3.5 了
    philobscur
        10
    philobscur  
       15 小时 13 分钟前   ❤️ 1
    MuyuQ
        11
    MuyuQ  
       10 小时 4 分钟前   ❤️ 1
    @coefu 这个模型真是奇怪。 感觉好的人吹上天。感觉一般的人反应平淡。 但是像你这么激动的我还是第一次见。。。。单纯是描述我看到的哈。
    MuyuQ
        12
    MuyuQ  
       9 小时 47 分钟前   ❤️ 1
    目前看到的评测,大概是 qwen3.5 左右的水准。
    https://www.reddit.com/r/LocalLLaMA/comments/1saoyj7/gemma_4_and_qwen35_on_shared_benchmarks/
    可以期待一下即将发布的 qwen3.6
    stefwoo
        13
    stefwoo  
       8 小时 42 分钟前
    用 3090 试了试 gemma 4 31B 4bit ,model 16g 左右,但在 32k 时已经占满了 24g 内存,我觉得模型有问题,论坛也有人反应显存爆炸。生成速度也很慢,远低于 qwen3.5 27B 。
    nightlight9
        14
    nightlight9  
       7 小时 30 分钟前
    反而觉得本地部署越来越遥远了,minimax 、glm 、kimi 虽然开源,都是千亿模型,本地部署没戏

    而且趋势是从开源走向闭源。比如说 qwen 最新模型都是闭源的。
    workbest
        15
    workbest  
       6 小时 46 分钟前
    https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4

    我等这个上了 ollama 来试一下,完整的 31b 跑不起来
    diudiuu
        16
    diudiuu  
       3 小时 53 分钟前
    ollama 咋都是这个部署,这个软件能测个啥
    coefu
        17
    coefu  
       3 小时 40 分钟前
    @MuyuQ #11 因为从 2024 年春天开始,这两年来我几乎每个开源模型的中小尺寸都尝试过。


    我主要集中在神经网络底层前沿技术的探索能力。Transformer 的变种实验,SNN 脉冲神经网络的变种实验,DRL 里自定义网络实验。我提供 idea ,模型给代码,我跑结果,模型 debug ,这个 loop 。在线的官方模型 和 本地部署的 中小尺寸,比照能力。

    有一讲一,我去年夏天用 qwen 在线的模型,一起 debug DRL ,几度把我带到了坑里。

    后面换 chatgpt ,效果好一点,但是胡说八道依然存在,给出的论文索引大部分都是假的。

    后面用 gemini ,就在上上周,我用 gemini ,再不知情的情况下,我们(我提供 idea ,gemini 负责代码实现)从 0 复现了 snn 里程碑的论文( https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2015.00099/full )。就这感觉,qwen/chatgpt 从来没有给我带来过。在 qwen3.5 开源的同时,我就本地用了一个下午,强确实强,但那是 gemma4 没开源的时候。昨天我用了 gemma4 一下午,对比在线 gemini ,同样的问题,几乎能给出 90%相似度的解决方案。你说,我激不激动? gemini 的能力,我是深度认可的,因为在一些还没有结论的问题上,确实能辅助一起探索,关键是几乎不胡说八道。

    最后,如果只是一些 web 前后端代码 coding ,讲真,那只是很中规中矩的使用,感受不到上限的提升。
    coefu
        18
    coefu  
       3 小时 34 分钟前
    @philobscur #10 不要看说什么,等放出来了再来打我脸,ok ?真放出来,确实强,那是我这次错了。
    MuyuQ
        19
    MuyuQ  
       2 小时 38 分钟前
    @coefu 原来如此。 你试过最新的 claude 和 ChatGPT 5.4 么。 如果是做研究的话,这些轻量级的开源模型还是差太多了。 至于 gemini 几乎不胡说八道。这个有点难绷。Gemini 最近在编程方面的指令遵从都变得抽象了,探索性的工作的幻觉肯定不会小吧。。。不要太相信某个模型,如果要相信,还是相信最强的那个吧。
    philobscur
        20
    philobscur  
       1 小时 57 分钟前
    @MuyuQ 看到他说 gemini 不会胡说八道,我是真没绷住
    MuyuQ
        21
    MuyuQ  
       1 小时 33 分钟前
    @philobscur 角度不同。对于编码这种需要严格遵从指令的工作,肯定不想 Gemini 自由发挥。 但 Gemini 在搜索和探索方面确实蛮强的。
    xing7673
        22
    xing7673  
       1 小时 15 分钟前
    @coefu 等 3.6 小模型开源打你脸,别在这里传谣了
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2550 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 09:50 · PVG 17:50 · LAX 02:50 · JFK 05:50
    ♥ Do have faith in what you're doing.