TGOcc
V2EX  ›  Local LLM

Mac book air M5 32G+1TB 能跑本地大模型?

  •  
  •   TGOcc ·
    PRO
    · 4 days ago · 2671 views

    先说结论,能跑,但没办法长期跑,主要问题是散热,外挂风扇支架也不太能解决问题,高强度跑温度上升快,持续高温机器会降频。如果考虑便携+生产力,推荐上 mac book pro 吧。

    装了两个平台,ollama 跟 olmx ,测试下来,olmx 平台会更快些,考虑到机器 32G 的内存,能跑的模型大小不要超 22GB

    附上部分主流模型下载容量大小及 olmx 平台测试结果给大家做参考

    Qwen3.5-4B-MLX-4bit 2.85GB

    gemma-4-26b-a4b-it-4bit 14.57GB

    Qwen3.6-35B-A3B-4bit 15.13GB

    GLM-4.7-Flash-4bit 15.71GB

    gpt-oss-20b-MXFP4-Q8 11.27GB

    oMLX - LLM inference, optimized for your Mac
    
    Benchmark Model: Qwen3.5-4B-MLX-4bit
    ================================================================================
    Single Request Results
    --------------------------------------------------------------------------------
    Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
    pp1024/tg128       1001.6       22.74  1022.4 tok/s    44.3 tok/s     3.889   296.2 tok/s     3.29 GB
    pp4096/tg128       3540.9       23.76  1156.8 tok/s    42.4 tok/s     6.558   644.1 tok/s     3.90 GB
    
    Continuous Batching
    pp1024 / tg128
    --------------------------------------------------------------------------------
    Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
    1x        44.3 tok/s      1.00x    1022.4 tok/s  1022.4 tok/s      1001.6       3.889
    2x        88.3 tok/s      1.99x     407.6 tok/s   203.8 tok/s      3040.1       7.924
    4x       175.1 tok/s      3.95x     322.7 tok/s    80.7 tok/s      6833.9      15.617
    
    
    Benchmark Model: gemma-4-26b-a4b-it-4bit
    ================================================================================
    Single Request Results
    --------------------------------------------------------------------------------
    Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
    pp1024/tg128       1500.5       24.21   682.4 tok/s    41.6 tok/s     4.575   251.8 tok/s    14.23 GB
    pp4096/tg128       4863.4       25.14   842.2 tok/s    40.1 tok/s     8.056   524.3 tok/s    14.91 GB
    
    Continuous Batching
    pp1024 / tg128
    --------------------------------------------------------------------------------
    Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
    1x        41.6 tok/s      1.00x     682.4 tok/s   682.4 tok/s      1500.5       4.575
    2x        82.5 tok/s      1.98x     361.6 tok/s   180.8 tok/s      3495.8       8.767
    4x       166.1 tok/s      3.99x     283.4 tok/s    70.8 tok/s      7840.6      17.536
    
    
    Benchmark Model: Qwen3.6-35B-A3B-4bit
    ================================================================================
    Single Request Results
    --------------------------------------------------------------------------------
    Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
    pp1024/tg128       1676.1       17.20   610.9 tok/s    58.6 tok/s     3.860   298.4 tok/s    18.80 GB
    pp4096/tg128       5046.3       17.93   811.7 tok/s    56.2 tok/s     7.323   576.8 tok/s    19.24 GB
    
    Continuous Batching
    pp1024 / tg128
    --------------------------------------------------------------------------------
    Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
    1x        58.6 tok/s      1.00x     610.9 tok/s   610.9 tok/s      1676.1       3.860
    2x       116.2 tok/s      1.98x     435.5 tok/s   217.8 tok/s      2973.7       6.907
    4x       230.7 tok/s      3.94x     352.0 tok/s    88.0 tok/s      6445.2      13.855
    
    
    Benchmark Model: GLM-4.7-Flash-4bit
    ================================================================================
    Single Request Results
    --------------------------------------------------------------------------------
    Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
    pp1024/tg128       1985.0       21.78   515.9 tok/s    46.3 tok/s     4.752   242.4 tok/s    16.27 GB
    pp4096/tg128       6839.2       27.31   598.9 tok/s    36.9 tok/s    10.307   409.8 tok/s    17.34 GB
    
    Continuous Batching
    pp1024 / tg128
    --------------------------------------------------------------------------------
    Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
    1x        46.3 tok/s      1.00x     515.9 tok/s   515.9 tok/s      1985.0       4.752
    2x        91.5 tok/s      1.98x     362.7 tok/s   181.3 tok/s      3549.9       8.445
    4x       174.9 tok/s      3.78x     321.2 tok/s    80.3 tok/s      6393.9      15.679
    
    
    Benchmark Model: gpt-oss-20b-MXFP4-Q8
    ================================================================================
    Single Request Results
    --------------------------------------------------------------------------------
    Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
    pp1024/tg128       1687.6       24.70   606.8 tok/s    40.8 tok/s     4.824   238.8 tok/s    11.67 GB
    pp4096/tg128       4088.8       26.44  1001.8 tok/s    38.1 tok/s     7.446   567.3 tok/s    11.75 GB
    
    Continuous Batching
    pp1024 / tg128
    --------------------------------------------------------------------------------
    Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
    1x        40.8 tok/s      1.00x     606.8 tok/s   606.8 tok/s      1687.6       4.824
    2x        82.1 tok/s      2.01x     359.0 tok/s   179.5 tok/s      3489.1       8.822
    4x       159.5 tok/s      3.91x     293.2 tok/s    73.3 tok/s      7335.0      17.180
    
    17 replies    2026-06-12 14:07:20 +08:00
    rockddd
        1
    rockddd  
       4 days ago
    我用 mac mini 32G 跑的解禁模型,LM Studio 服务启动了一个多月了,可能台式没有散热问题,还挺稳定的
    keyu1103
        2
    keyu1103  
       4 days ago
    说起来, 现在好像 m5max 算是性价比最高的本地大模型方案了吧?(不考虑魔改的)
    amd ai395+ 要 2 万,nvidia dgx spark 要大概 2.8 ~ 3 万,而 macbook 14x m5 max 128+2t ,算 85 折优惠 3.5w 左右
    TGOcc
        3
    TGOcc  
    OP
    PRO
       4 days ago
    @rockddd 你没有散热问题应该很稳的。


    @keyu1103 如果不考虑便携性,推荐等 M5 pro 或 M5 MAX,你说的 amd 我朋友弄了台,128G 内存的,现在考虑出了等 M5 新版发布。
    bingoAI
        4
    bingoAI  
       4 days ago
    感谢分享
    lzzwenhua
        5
    lzzwenhua  
       4 days ago
    https://www.canirun.ai/ 可以上这个网站看下
    rockddd
        6
    rockddd  
       4 days ago
    @lzzwenhua #5 实测不准
    MuyuQ
        7
    MuyuQ  
       4 days ago
    可以把后盖卸了,然后去找咸鱼一个定制后盖,后盖上有大量镂空,用风扇直吹。效果杠杠的。
    ladeo
        8
    ladeo  
       4 days ago
    看看这个项目
    redis 作者专门为 ds4 写的 on Mac
    https://github.com/antirez/ds4
    TGOcc
        9
    TGOcc  
    OP
    PRO
       4 days ago
    @MuyuQ 新机器还在保拆后盖,这个成本有点大,我还要考虑到日常便携使用没必要这么硬核,真要生产力直接出了上 pro 就行了。
    @lzzwenhua 这个是用户测试上传的吗?
    @rockddd 还是自己测比较实际些。运行环境除了硬件,还有软件后台挂载等情况。
    coefu
        10
    coefu  
       4 days ago
    mac 系列真正能打的是,ultra ,128G 内存就是甜点位。因为 800GB 的内存带宽,模型超过 60G ,在 long context 的情况下,pp 过程慢的让人怀疑人生。96G 内存是最舒服了,263k context 可以跑 Q8.
    coefu
        11
    coefu  
       4 days ago   ❤️ 1
    另外,oMLX 最大的问题是 让 context 无法往 263k 去,因为一旦 内存过了告警阈值,就直接 panic 了。

    所以,我推荐 llama.cpp ,不要信那些说什么不用 oMLX 就浪费 apple metal gpu 的,他们压根儿就没实践过。我用 llama.cpp 直接把 gpu 利用率搞到了 100%。

    llama.cpp 能把 context 搞到 263k ,并且 Q4 量化,能把内存逼近到极限,但是不会 panic 。
    TGOcc
        12
    TGOcc  
    OP
    PRO
       4 days ago
    @coefu 看今年新发布的 M5 抢个 128GB 的
    coefu
        13
    coefu  
       4 days ago
    @TGOcc m5 max 的统一内存带宽才 614GB/s ,真正对推理影响最大的还是内存带宽,apple metal gpu 核心,讲真,最终在 263k 的 context ,完全没有影响了。我的 m1 ultra ,qwen27B Q8 在 150k context 之后,tg 就下滑到了 5 左右。但是大部分情况下,最终还是能完成任务的,这还是因为 qwen 27B 的 Q8 确实强。
    coefu
        14
    coefu  
       4 days ago
    内存不够的情况下,最新的 qat 量化版本,确实有得搞。Q4 的体积,Q8 的效果。
    busier
        15
    busier  
       4 days ago
    感谢提供参考数据
    TGOcc
        16
    TGOcc  
    OP
    PRO
       3 days ago
    @coefu 就是因为 ai 的应用,苹果大内存的二手 MAC 已经被炒的价格太高了,今天凌晨的发布会还以为会发 M5 新款,没想到主要是讲 ai 应用,国内还用不了。看了个寂寞,从 iphone15 吹到 17 了还没搞定国内版。
    TGOcc
        17
    TGOcc  
    OP
    PRO
       19h 3m ago
    ```html
    <pre>
    oMLX - LLM inference, optimized for your Mac
    Benchmark Model: mlx-community--diffusiongemma-26B-A4B-it-4bit
    ================================================================================

    Single Request Results
    --------------------------------------------------------------------------------
    Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem
    pp1024/tg128 1246.4 22.51 821.6 tok/s 44.8 tok/s 4.105 280.6 tok/s 14.23 GB
    pp4096/tg128 4422.4 23.73 926.2 tok/s 42.5 tok/s 7.436 568.0 tok/s 14.69 GB

    Continuous Batching
    pp1024 / tg128
    --------------------------------------------------------------------------------
    Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s)
    1x 44.8 tok/s 1.00x 821.6 tok/s 821.6 tok/s 1246.4 4.105
    2x 88.9 tok/s 1.98x 368.4 tok/s 184.2 tok/s 3461.1 8.438
    4x 176.9 tok/s 3.95x 296.4 tok/s 74.1 tok/s 7492.6 16.713
    </pre>

    最新的 diffusiongemma-26B-A4B-it-4bit 模型测试,速度挺快,有一定的实用化了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2858 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 01:10 · PVG 09:10 · LAX 18:10 · JFK 21:10
    ♥ Do have faith in what you're doing.