Mac book air M5 32G+1TB 能跑本地大模型？

This topic created in 50 days ago, the information mentioned may be changed or developed.

先说结论，能跑，但没办法长期跑，主要问题是散热，外挂风扇支架也不太能解决问题，高强度跑温度上升快，持续高温机器会降频。如果考虑便携+生产力，推荐上 mac book pro 吧。

装了两个平台，ollama 跟 olmx ，测试下来，olmx 平台会更快些，考虑到机器 32G 的内存，能跑的模型大小不要超 22GB

附上部分主流模型下载容量大小及 olmx 平台测试结果给大家做参考

Qwen3.5-4B-MLX-4bit 2.85GB

gemma-4-26b-a4b-it-4bit 14.57GB

Qwen3.6-35B-A3B-4bit 15.13GB

GLM-4.7-Flash-4bit 15.71GB

gpt-oss-20b-MXFP4-Q8 11.27GB

oMLX - LLM inference, optimized for your Mac

Benchmark Model: Qwen3.5-4B-MLX-4bit
================================================================================
Single Request Results
--------------------------------------------------------------------------------
Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
pp1024/tg128       1001.6       22.74  1022.4 tok/s    44.3 tok/s     3.889   296.2 tok/s     3.29 GB
pp4096/tg128       3540.9       23.76  1156.8 tok/s    42.4 tok/s     6.558   644.1 tok/s     3.90 GB

Continuous Batching
pp1024 / tg128
--------------------------------------------------------------------------------
Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
1x        44.3 tok/s      1.00x    1022.4 tok/s  1022.4 tok/s      1001.6       3.889
2x        88.3 tok/s      1.99x     407.6 tok/s   203.8 tok/s      3040.1       7.924
4x       175.1 tok/s      3.95x     322.7 tok/s    80.7 tok/s      6833.9      15.617


Benchmark Model: gemma-4-26b-a4b-it-4bit
================================================================================
Single Request Results
--------------------------------------------------------------------------------
Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
pp1024/tg128       1500.5       24.21   682.4 tok/s    41.6 tok/s     4.575   251.8 tok/s    14.23 GB
pp4096/tg128       4863.4       25.14   842.2 tok/s    40.1 tok/s     8.056   524.3 tok/s    14.91 GB

Continuous Batching
pp1024 / tg128
--------------------------------------------------------------------------------
Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
1x        41.6 tok/s      1.00x     682.4 tok/s   682.4 tok/s      1500.5       4.575
2x        82.5 tok/s      1.98x     361.6 tok/s   180.8 tok/s      3495.8       8.767
4x       166.1 tok/s      3.99x     283.4 tok/s    70.8 tok/s      7840.6      17.536


Benchmark Model: Qwen3.6-35B-A3B-4bit
================================================================================
Single Request Results
--------------------------------------------------------------------------------
Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
pp1024/tg128       1676.1       17.20   610.9 tok/s    58.6 tok/s     3.860   298.4 tok/s    18.80 GB
pp4096/tg128       5046.3       17.93   811.7 tok/s    56.2 tok/s     7.323   576.8 tok/s    19.24 GB

Continuous Batching
pp1024 / tg128
--------------------------------------------------------------------------------
Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
1x        58.6 tok/s      1.00x     610.9 tok/s   610.9 tok/s      1676.1       3.860
2x       116.2 tok/s      1.98x     435.5 tok/s   217.8 tok/s      2973.7       6.907
4x       230.7 tok/s      3.94x     352.0 tok/s    88.0 tok/s      6445.2      13.855


Benchmark Model: GLM-4.7-Flash-4bit
================================================================================
Single Request Results
--------------------------------------------------------------------------------
Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
pp1024/tg128       1985.0       21.78   515.9 tok/s    46.3 tok/s     4.752   242.4 tok/s    16.27 GB
pp4096/tg128       6839.2       27.31   598.9 tok/s    36.9 tok/s    10.307   409.8 tok/s    17.34 GB

Continuous Batching
pp1024 / tg128
--------------------------------------------------------------------------------
Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
1x        46.3 tok/s      1.00x     515.9 tok/s   515.9 tok/s      1985.0       4.752
2x        91.5 tok/s      1.98x     362.7 tok/s   181.3 tok/s      3549.9       8.445
4x       174.9 tok/s      3.78x     321.2 tok/s    80.3 tok/s      6393.9      15.679


Benchmark Model: gpt-oss-20b-MXFP4-Q8
================================================================================
Single Request Results
--------------------------------------------------------------------------------
Test             TTFT(ms)    TPOT(ms)        pp TPS        tg TPS    E2E(s)    Throughput    Peak Mem
pp1024/tg128       1687.6       24.70   606.8 tok/s    40.8 tok/s     4.824   238.8 tok/s    11.67 GB
pp4096/tg128       4088.8       26.44  1001.8 tok/s    38.1 tok/s     7.446   567.3 tok/s    11.75 GB

Continuous Batching
pp1024 / tg128
--------------------------------------------------------------------------------
Batch         tg TPS    Speedup          pp TPS    pp TPS/req    TTFT(ms)      E2E(s)
1x        40.8 tok/s      1.00x     606.8 tok/s   606.8 tok/s      1687.6       4.824
2x        82.1 tok/s      2.01x     359.0 tok/s   179.5 tok/s      3489.1       8.822
4x       159.5 tok/s      3.91x     293.2 tok/s    73.3 tok/s      7335.0      17.180

模型

推理

散热

17 replies • 2026-06-12 14:07:20 +08:00

rockddd

Jun 8

我用 mac mini 32G 跑的解禁模型，LM Studio 服务启动了一个多月了，可能台式没有散热问题，还挺稳定的

keyu1103

Jun 8

说起来，现在好像 m5max 算是性价比最高的本地大模型方案了吧？（不考虑魔改的）
amd ai395+ 要 2 万，nvidia dgx spark 要大概 2.8 ～ 3 万，而 macbook 14x m5 max 128+2t ，算 85 折优惠 3.5w 左右

TGOcc

PRO

Jun 8

@rockddd 你没有散热问题应该很稳的。

@keyu1103 如果不考虑便携性，推荐等 M5 pro 或 M5 MAX,你说的 amd 我朋友弄了台，128G 内存的，现在考虑出了等 M5 新版发布。

bingoAI

Jun 8

感谢分享

lzzwenhua

Jun 8

https://www.canirun.ai/ 可以上这个网站看下

rockddd

Jun 8

@lzzwenhua #5 实测不准

MuyuQ

Jun 8

可以把后盖卸了，然后去找咸鱼一个定制后盖，后盖上有大量镂空，用风扇直吹。效果杠杠的。

ladeo

Jun 8

看看这个项目
redis 作者专门为 ds4 写的 on Mac
https://github.com/antirez/ds4

TGOcc

PRO

Jun 8

@MuyuQ 新机器还在保拆后盖，这个成本有点大，我还要考虑到日常便携使用没必要这么硬核，真要生产力直接出了上 pro 就行了。
@lzzwenhua 这个是用户测试上传的吗？
@rockddd 还是自己测比较实际些。运行环境除了硬件，还有软件后台挂载等情况。

coefu

Jun 8

mac 系列真正能打的是，ultra ，128G 内存就是甜点位。因为 800GB 的内存带宽，模型超过 60G ，在 long context 的情况下，pp 过程慢的让人怀疑人生。96G 内存是最舒服了，263k context 可以跑 Q8.

coefu

Jun 9

另外，oMLX 最大的问题是让 context 无法往 263k 去，因为一旦内存过了告警阈值，就直接 panic 了。

所以，我推荐 llama.cpp ，不要信那些说什么不用 oMLX 就浪费 apple metal gpu 的，他们压根儿就没实践过。我用 llama.cpp 直接把 gpu 利用率搞到了 100%。

llama.cpp 能把 context 搞到 263k ，并且 Q4 量化，能把内存逼近到极限，但是不会 panic 。

TGOcc

PRO

Jun 9

@coefu 看今年新发布的 M5 抢个 128GB 的

coefu

Jun 9

@TGOcc m5 max 的统一内存带宽才 614GB/s ，真正对推理影响最大的还是内存带宽，apple metal gpu 核心，讲真，最终在 263k 的 context ，完全没有影响了。我的 m1 ultra ，qwen27B Q8 在 150k context 之后，tg 就下滑到了 5 左右。但是大部分情况下，最终还是能完成任务的，这还是因为 qwen 27B 的 Q8 确实强。

coefu

Jun 9

内存不够的情况下，最新的 qat 量化版本，确实有得搞。Q4 的体积，Q8 的效果。

busier

Jun 9

感谢提供参考数据

TGOcc

PRO

Jun 9

@coefu 就是因为 ai 的应用，苹果大内存的二手 MAC 已经被炒的价格太高了，今天凌晨的发布会还以为会发 M5 新款，没想到主要是讲 ai 应用，国内还用不了。看了个寂寞，从 iphone15 吹到 17 了还没搞定国内版。

TGOcc

PRO

Jun 12

```html
<pre>
oMLX - LLM inference, optimized for your Mac
Benchmark Model: mlx-community--diffusiongemma-26B-A4B-it-4bit
================================================================================

Single Request Results
--------------------------------------------------------------------------------
Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem
pp1024/tg128 1246.4 22.51 821.6 tok/s 44.8 tok/s 4.105 280.6 tok/s 14.23 GB
pp4096/tg128 4422.4 23.73 926.2 tok/s 42.5 tok/s 7.436 568.0 tok/s 14.69 GB

Continuous Batching
pp1024 / tg128
--------------------------------------------------------------------------------
Batch tg TPS Speedup pp TPS pp TPS/req TTFT(ms) E2E(s)
1x 44.8 tok/s 1.00x 821.6 tok/s 821.6 tok/s 1246.4 4.105
2x 88.9 tok/s 1.98x 368.4 tok/s 184.2 tok/s 3461.1 8.438
4x 176.9 tok/s 3.95x 296.4 tok/s 74.1 tok/s 7492.6 16.713
</pre>

最新的 diffusiongemma-26B-A4B-it-4bit 模型测试，速度挺快，有一定的实用化了。