V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hjc4869
V2EX  ›  硬件

Apple 统一内存适合运行 LLM?理想很丰满,现实很骨感

  •  1
     
  •   hjc4869 · 13 小时 0 分钟前 · 946 次点击
    7 条回复    2024-11-14 16:17:15 +08:00
    liprais
        1
    liprais  
       12 小时 57 分钟前   ❤️ 1
    haters gonna hate
    piero66
        2
    piero66  
       10 小时 44 分钟前 via Android   ❤️ 1
    低预算显存总量优先,算力其次
    neteroster
        3
    neteroster  
       10 小时 15 分钟前 via Android
    认同这篇文章的主要观点,它谈及了一些关于本地 LLM 推理很多人没注意但很重要的内容。

    先不谈高 batch (毕竟日常不常用),大多数人都没意识到 M 芯片 prefill 很慢,而这个在上下文长的情况下是挺致命的。而且其实 decode 速度也会受上下文长度影响,很多测试仅仅是在很短的 prompt 下去测生成,得到一个看起来挺好看的数字,然而实际使用中很多情况下根本不是这种场景。

    个人观点是,当前,本地 LLM 推理对于大多数普通用户或开发者没有显著的使用必要,除非是特殊需求(例如强隐私需求等)。个人用户花大价钱购买设备单纯只是去推理本地 LLM 在现在看起来是不太明智的,当然如果是其他需求顺便推模型或者单纯太有钱买来玩玩那倒也没什么。即使非要谈本地推理,Mac 的应用场景也是较窄的,文章中写的已经听明白了。

    文章还谈到了投机解码,这个确实很有意义,特别是对于生成内容主要是代码的情况,加速应该是相当明显( cursor 的自动补全就用了),期待未来这方面的发展。

    作为补充,看起来文章测 text generation 的时候只是用了 llama.cpp ,他的多卡实现应该还是 pipeline parallel ,有一些后端支持 tensor parallel ,多卡情况下单 batch 性能应该还能进一步提高(但对 PCIe 速度有更高要求),希望有相关测试。
    neteroster
        4
    neteroster  
       10 小时 7 分钟前 via Android
    @neteroster #3 没注意都是用单卡测的,那就不涉及多卡推理的方式了。不过非要本地推理现在性价比高的方案应该还是游戏卡多来几张
    SkywalkerJi
        5
    SkywalkerJi  
       9 小时 34 分钟前 via Android
    p40 1000 块就能买 24G 显存了。
    这价格买 Apple 黄金内存还不到 8g ,性价比在哪。
    预算超过 1w5 的话,大部分人也都会 3090 或者 4090 吧。
    @piero66
    Donaldo
        6
    Donaldo  
       9 小时 30 分钟前
    @SkywalkerJi #5 4090 显存也就 24g ,顶多跑个 30b 的。192g 的 mac studio 也就双 4090 的主机的钱。
    Donaldo
        7
    Donaldo  
       9 小时 29 分钟前
    @SkywalkerJi #5 当然,mac 更多的能在享受大内存的是顺便深入的玩玩 llm 比如微调模型什么的,真要考虑训练什么的,还是用专业的把。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1359 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 17:46 · PVG 01:46 · LAX 09:46 · JFK 12:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.