请教下跑 openclaw 对接本地大模型的时候, 又没用过 omlx 进行加速?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

https://github.com/jundot/omlx

有人说这个可以加速 3 倍, 特别是对首字节, 希望有人试下并反馈.

为什么我自己不试呢, 因为我的笔记本太垃圾了, 我还特意买了 32G 内存的, 现在跑了个千问 3.5-9B 的, 内存已经爆表了.

OpenClaw

accelerate

memory

4 replies • 2026-03-29 00:36:43 +08:00

testboy

Mar 28

这个是针对 macos 的吧

keithwhisper

Mar 29

首字节加速得益于 MLX 专门为 Metal 设计的, 你用其他 mlx inference engine 也有这效果.
说 omlx 快 3 倍, 其实是指比 mlx 快 3 倍, 因为 mlx 的 kv cache 没有优化, omlx 引入了 disk cache 缓解, 让 mlx 可以实际用于 agentic loop.

我正好在设计这个, 过两天发个 alpha 你可以试下

keithwhisper

Mar 29

不过现阶段还是推荐用 gguf 的模型, 因为量化质量更好. mlx 的模型主要还是均匀量化(这几天出了几个 mixed precision quantization, 还没有尝试), 质量不如 gguf 的量化版本.

Hermitist

Mar 29

@keithwhisper 期待.