V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
Hermitist
V2EX  ›  OpenClaw

请教下跑 openclaw 对接本地大模型的时候, 又没用过 omlx 进行加速?

  •  
  •   Hermitist · Mar 28 · 1213 views
    https://github.com/jundot/omlx

    有人说这个可以加速 3 倍, 特别是对首字节, 希望有人试下并反馈.

    为什么我自己不试呢, 因为我的笔记本太垃圾了, 我还特意买了 32G 内存的, 现在跑了个千问 3.5-9B 的, 内存已经爆表了.
    4 replies    2026-03-29 00:36:43 +08:00
    testboy
        1
    testboy  
       Mar 28
    这个是针对 macos 的吧
    keithwhisper
        2
    keithwhisper  
       Mar 29
    首字节加速得益于 MLX 专门为 Metal 设计的, 你用其他 mlx inference engine 也有这效果.
    说 omlx 快 3 倍, 其实是指比 mlx 快 3 倍, 因为 mlx 的 kv cache 没有优化, omlx 引入了 disk cache 缓解, 让 mlx 可以实际用于 agentic loop.

    我正好在设计这个, 过两天发个 alpha 你可以试下
    keithwhisper
        3
    keithwhisper  
       Mar 29
    不过现阶段还是推荐用 gguf 的模型, 因为量化质量更好. mlx 的模型主要还是均匀量化(这几天出了几个 mixed precision quantization, 还没有尝试), 质量不如 gguf 的量化版本.
    Hermitist
        4
    Hermitist  
    OP
       Mar 29
    @keithwhisper 期待.
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5238 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 01:16 · PVG 09:16 · LAX 18:16 · JFK 21:16
    ♥ Do have faith in what you're doing.