V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
godqueue
V2EX  ›  程序员

有人用 4070、4060 显卡的笔记本测试过跑 llama3,问问题,或者读取文档做总结,需要多长时间吗?

  •  
  •   godqueue · 22 天前 · 2115 次点击

    有人用 4070 、4060 显卡的笔记本测试过跑 llama3 ,问问题,或者读取文档做总结,需要多长时间吗?

    31 条回复    2024-05-27 16:35:26 +08:00
    rabbbit
        1
    rabbbit  
       21 天前
    内存太小只能跑小模型,效果不好。
    rabbbit
        2
    rabbbit  
       21 天前
    举个例子,给出一段文本,让模型回答文中日期相关的问题。7b 会瞎编,72b 则没这个问题。
    beginor
        3
    beginor  
       21 天前 via Android
    确实,13b 以下的都只能称之为小模型,用于学习其原理或者娱乐一下还可以。

    真正能用的得 30b 以上的模型,最好是非量化版本的,然而 30b 以上的模型又不是一般电脑能跑得动的。
    godqueue
        4
    godqueue  
    OP
       21 天前
    就是用来学习,就看看返回速度快不快而已。。其他的不重要。。
    godqueue
        5
    godqueue  
    OP
       21 天前
    现在用的是 mac pro2017 笔记本,有点老。。新的 mac 好像跑这些也不太行。。
    看了下 4080 、4090 的笔记本都比较贵。。想先看看 4060 、4070 之类的本能不能简单的满足学习的场景

    好像除了这个,我对显卡没啥要求。。这样来看去买 4080 、4090 笔记本又感觉有很费钱。。
    rabbbit
        6
    rabbbit  
       21 天前
    小的 0.5b 都有。问题是他瞎编的时候,搞不清楚到底是数据、提示词有问题,还是模型的问题。
    haiku
        7
    haiku  
       21 天前 via Android   ❤️ 1
    7b 有三五十 token 一秒吧,13b 好像只有十左右了
    godqueue
        8
    godqueue  
    OP
       21 天前
    @rabbbit 我还没遇到这个情况。。只是学了一下提示词、function calling 。然后自己用了下公司的知识库。。随便问回答的感觉还可以,用的 llama3 模型。一般情况下用提示词基本都能解决。。
    sentanl869
        9
    sentanl869  
       21 天前
    最近用笔记本的 3070Ti 跑 llama3:8B 模型,问问题响应很快,有点出乎意料,本来以为会挺慢的;文档总结还测过;
    目测模型推理使用的显存 4G 左右,长时间的推理开销也还没来得及测试;
    rabbbit
        10
    rabbbit  
       21 天前
    @godqueue
    这个看应用场景,如果是法律、客服类的要求是尽可能的按照知识库资料回答,很忌讳模型不跟据资料回答,瞎编内容。
    你用的多少 b 的模型?
    rabbbit
        11
    rabbbit  
       21 天前
    试试这个

    根据已知资料,回答用户问题.不要回答已知资料中没有的内容. \n 已知资料: 爱达·魔都号(英语:Adora Magic City )是中国第一艘国产大型邮轮,由上海外高桥造船于 2019 年 10 月 18 日开始建造,2023 年 11 月 4 日交付中船嘉年华,2024 年 1 月 1 日正式营运,将以上海为母港,执航日本及东南亚航线。该船长 323.6 米,宽 37.2 米,总吨 13 万 5500 吨,有 24 层楼高,2125 间客房,可载乘客 5246 人。船上有豪华酒店、影院剧场、水上乐园、健身房、篮球场、免税店、海上探索营等设施,全船有 5G 信号覆盖。船上一共配备了 20 艘救生艇。 \n 用户问题: 魔都号的尺寸是多少?
    lrigi
        12
    lrigi  
       21 天前 via iPhone   ❤️ 1
    @rabbbit 我测了一下 mac 上 ollama 默认模型,均为 4bit 量化
    wizardlm2:8b
    根据已知资料,爱达·魔都号( Adora Magic City )的尺寸为:长度 323.6 米,宽度 37.2 米。
    phi3:4b
    魔都号的尺寸为 323.6 米长,37.2 米宽。
    Llama3:8b
    根据已知资料,爱达·魔都号( Adora Magic City )的尺寸是:

    * 长 323.6 米
    * 宽 37.2 米

    因此,这艘邮轮的长宽为 323.6 米 x 37.2 米。
    BernieDu
        13
    BernieDu  
       21 天前
    @lrigi 这还用测吗,你看模型大小就看出来了啊,70b 的才 40g 大小。
    gpt5
        14
    gpt5  
       21 天前
    大几十 b 的模型,大概需要什么配置跑?
    BernieDu
        15
    BernieDu  
       21 天前
    @lrigi 看了一眼只是默认是 4bit ,可以选 q6 fp16 的 branch 。
    Ayahuasec
        16
    Ayahuasec  
       21 天前
    用 7840HS+RTX4050Laptop 的笔记本跑过 llama.cpp ,卸载了 20 层到 GPU 上,把 context 限制在 2048 的话,跑 q4km 量化的 14b 模型,日志文件里记录的一次速度如下:
    llama_print_timings: prompt eval time = 1300.29 ms / 385 tokens ( 3.38 ms per token, 296.09 tokens per second)
    llama_print_timings: eval time = 52142.44 ms / 331 runs ( 157.53 ms per token, 6.35 tokens per second)

    有 GPU 加速的话 Prompt Eval 的速度会非常快,基本上发出几百个字的文本给模型以后,马上就能开始回复了。纯 CPU 计算的话 Prompt Eval 的速度只有 10 Tokens/s 左右,体现在应用上就是发了一段比较长的文本给模型要等很久才开始回复( 500 字可能要等半分钟的样子)。

    但是 RTX4050 的显存比较小,如果要开启比较大的 context 的话,就只能往显存上放更少的层,模型的输出速度就会慢下来。不过我感觉可用性还是挺好的,至少出门在动车上的时候连不上网就可以直接问本地模型了。
    kenvix
        17
    kenvix  
       21 天前
    @beginor #3 量化影响不大,参数量才是关键
    godqueue
        18
    godqueue  
    OP
       21 天前
    @Ayahuasec amd cpu 不影响跑大模型吗?现在 amd 的 cpu 咋样,还有啥东西会存在兼容问题之类的么?
    跑虚拟机或者安装 linux 系统会有影响吗?

    我是用 ollama run llama3 "summarize this file $(cat test.txt)" --verbose 这个命令来看速度的

    total duration:4m16.4180938s
    load duration:524.8u
    。。。。。
    beginor
        19
    beginor  
       21 天前 via Android
    @kenvix 也有影响的,70b 的话 q5_k_m 跑不动, 提示超内存,q4_k_m 勉强能跑起来
    lrigi
        20
    lrigi  
       21 天前 via iPhone
    @BernieDu 我知道,楼主或其他人不一定知道默认是 4bit 啊,我不看我也知道有 fp16 ,但有 fp16 又怎样?你能说一下 4bit 和 fp16 在实际中区别在哪吗?我测一下只是为了说明这种任务模型不一定非要 70b ,
    godqueue
        21
    godqueue  
    OP
       21 天前
    @rabbbit 我用 llam3:8b 输出的和 lrigi 一样。。应该是正确的吧
    godqueue
        22
    godqueue  
    OP
       21 天前
    @lrigi 哈哈。。我知道 llama3 默认是 8b,你们说的 4bit 不懂。。。fp16 也不懂。。还得回炉学习下。。
    looveh
        23
    looveh  
       21 天前
    macM1 跑 8B 都有点卡,我试了一下服务器上的 3090 ,跑 8B 完全没问题,跑 70B 也很卡
    godqueue
        24
    godqueue  
    OP
       21 天前
    你们不会拿笔记本显卡跑 70b,如此大模型吧。。
    rabbbit
        25
    rabbbit  
       21 天前
    @godqueue
    没错,能输出长宽就是符合要求的。
    可以按小时租 gpu ,便宜的几块钱一小时,不用的时候关掉。
    Ayahuasec
        26
    Ayahuasec  
       21 天前 via Android
    @godqueue 现在软件兼容性上,AMD 和 Intel 没有太大区别吧。我感觉支持 AVX 然后内存带宽不差、内存容量够的话,CPU 跑起来 int4 的 14b 左右的模型,虽说不算快但是起码可用了。

    虚拟机的话主要考虑 GPU 能不能直通进去,或者虚拟机内部要能调用到主机的 CUDA ,不然 GPU 加速跑不起来。
    godqueue
        27
    godqueue  
    OP
       21 天前
    @rabbbit 还有这种业务,非常棒,适合我~~~我之前看阿里云啥的都贵的要死。。
    godqueue
        28
    godqueue  
    OP
       21 天前
    @Ayahuasec 嗯。。看来也可以考虑 AMD 的 cpu 了~~~
    kenvix
        29
    kenvix  
       21 天前
    @beginor #19 我指的是对模型表现
    bibi012
        30
    bibi012  
       21 天前
    同问, 一直想自己搭环境
    Charon2050
        31
    Charon2050  
       21 天前
    外行人有个疑问,能不能用时间换空间,不考虑速度的情况下,在小内存的机器上跑 70b 之类稍大的模型呢?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2903 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 13:04 · PVG 21:04 · LAX 06:04 · JFK 09:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.