jiezou
V2EX  ›  Local LLM

大模型小白推荐一下本地模型

  •  
  •   jiezou · 1 day ago · 3584 views

    有台闲置的小主机,换个 2080ti 魔改显卡,可能偏向于知识库的用途,能跑哪些本地模型呢?
    29 replies    2026-06-23 19:40:45 +08:00
    aptupdate
        1
    aptupdate  
       1 day ago via iPhone
    这个性能和显存的卡好像也跑不了什么模型……
    试试 Gemma4 吧,4B 应该能跑得起来。
    jiezou
        2
    jiezou  
    OP
       1 day ago
    @aptupdate 入门学习为主,跑业务肯定差得远
    tool2dx
        3
    tool2dx  
       1 day ago   ❤️ 1
    22G 显存基本上大部分本地模型都能跑了.
    TwilightCool
        4
    TwilightCool  
       1 day ago   ❤️ 2
    NUT00
        5
    NUT00  
       1 day ago
    qwen3.6 27B 吧,上下文拉低一点,Q4 应该能跑
    Ryanzlab
        6
    Ryanzlab  
       1 day ago
    一点用都没有,8G 显存,打游戏都够呛,跑 AI 别想了
    magic1187
        7
    magic1187  
       1 day ago
    至少 16G 显存吧,不然部署起来也没用。
    unusualcat
        8
    unusualcat  
       1 day ago   ❤️ 1
    你直接问 gpt 就行,让它给你推荐,你拉下来试用,看哪个满足你的需求。
    我局域网里有一个 gtx1060 6gb 显卡的笔记本,装了 ollama ,合盖运行,映射端口给局域网另一台 Mac 电脑用。拿来翻译字幕,给视频做总结都可以的。写代码不行。
    MacBook-Pro ~ % ollama list
    NAME ID SIZE MODIFIED
    demonbyron/HY-MT1.5-1.8B:latest f2ab05e35468 1.1 GB 15 hours ago
    qwen3:4b 359d7dd4bcda 2.5 GB 17 hours ago
    deepseek-r1:8b 6995872bfe4c 5.2 GB 20 hours ago
    qwen3.5:2b-q4_K_M 124a03c34777 1.9 GB 20 hours ago
    qwen3:4b-instruct-2507-q4_K_M 0edcdef34593 2.5 GB 20 hours ago
    qwen2.5-coder:3b f72c60cabf62 1.9 GB 20 hours ago

    8b 模型会溢出,变成内存➕显存混合跑,速度低很多。
    ovtfkw
        9
    ovtfkw  
       1 day ago
    可以 @站长
    rimworld
        10
    rimworld  
       1 day ago   ❤️ 1
    让 gpt 帮你配置内存推理的方案就行了,可以跑 26b 量化版本的模型。内存就是速度慢一点。只用显卡的话,那就是 4b ,6b 。
    unknow1
        11
    unknow1  
       1 day ago   ❤️ 1
    重排模型:接入 bge-rerank 重排模型(ollama 不支持重排模型,需 docker 运行)或 qwen 重排模型
    向量模型:modelscope.cn/Qwen/Qwen3-Embedding-4B-GGUF:latest
    文本模型:modelscope.cn/Qwen/Qwen3-8B-GGUF:latest
    unknow1
        12
    unknow1  
       1 day ago
    这三个测试用,要想好用,你这个配置不够
    grimbedroom
        13
    grimbedroom  
       1 day ago   ❤️ 1
    https://www.canirun.ai/ 或许可以试试这个
    jiezou
        14
    jiezou  
    OP
       1 day ago
    感谢 v 友帮助,已购等到货上机测试。
    Lin137
        15
    Lin137  
       1 day ago
    https://github.com/pewdiepie-archdaemon/odysseus
    可以看下这个项目,里面有个 cookbook 的小功能,可以自动推荐自己机器最适合运行的本地大模型
    opeth
        16
    opeth  
       1 day ago
    2080ti 22G 可以跑 qwen3.6-35B-A3B ,也可以试一下 Gemma4 系列的模型
    h4ckm310n
        17
    h4ckm310n  
       1 day ago
    22G 显存,qwen3.6 35b 或者 gemma4 26b 吧
    abel533
        18
    abel533  
       1 day ago
    使用 llama-server ,可以试试 https://huggingface.co/unsloth/gemma-4-26B-A4B-it-qat-GGUF

    我在 sd-webui 刚出的时候买了个 2080ti 11G ,用了几年后换了 22G ,现在跑这种小模型都没问题。你这主机配置太高了,我还用的 2015 年的至强+16G 内存,现在的 CPU 和内存成了瓶颈。
    abel533
        19
    abel533  
       1 day ago
    @abel533 还可以学学 comfyui ,试试 zimageturbo 生图(和 gptimage2 一样的效果(除去文字布局外)) 1K 的图基本上 10 秒左右出图。还可以试试 FLUX.2-klein-9B 的 image edit ,速度也很快。
    Shielber
        20
    Shielber  
       1 day ago
    玩本地 AI 起步是 16G 显存,大部分人卡在这
    jhytxy
        21
    jhytxy  
       1 day ago via iPhone
    gemma4 31b qat
    训练就针对 q4 量化
    coefu
        22
    coefu  
       1 day ago
    @Shielber 起步是 96G ,你打错数字了。
    cowcomic
        23
    cowcomic  
       1 day ago
    2080ti 的魔改版印象是 22G 显存
    上 qwen3.5-9b 的 int4 量化版,上下文缩小点儿
    还要留一部分显存跑 embedding 和 rerank 模型
    embedding 推荐 gte-qwen2-1.5b ,能支持长上下文,RAG 神器,找个 int4 量化版本
    rerank 推荐 bge-rerank-m2 ,能支持长上下文,RAG 神器
    上面三个模型应该能勉勉强强装下,不够的话,就把 LLM 的上下文再缩一些,量化的话 int4 一下就不建议了

    要是不非得追求私有化部署的话,买显卡的钱不如用线上模型了,现在都挺便宜的
    PbCopy111
        24
    PbCopy111  
       1 day ago
    我也想跑本地来着,后来觉得还不如用免费模型呢。。。比如硅基的 qwen3-8b 起码免费的,我觉得用着跟本地大模型的速度差不多。
    yh7gdiaYW
        25
    yh7gdiaYW  
       1 day ago
    qwen3.6-35b-a3b-fp4 ,qwen3-embedding-0.6b-fp8,qwen3-rerank-0.6b-fp8 ,基本塞满显存
    jiezou
        26
    jiezou  
    OP
       19h 34m ago
    @cowcomic 实际业务有私有化要求的,不然肯定是线上的量大便宜。
    v2wp
        27
    v2wp  
       17h 42m ago
    配置分配不多,推荐 Qwen3 4b instruct 2507 UD ,配置分配足够就推荐 Qwen3 30B A3B 或 Qwen3 Coder 30B A3B.
    cowcomic
        28
    cowcomic  
       16h 48m ago
    @jiezou 要是跑政府或者军工的业务的话,就别上这个显卡了,直接看国产卡,通常都是一卡 2 芯一共 64G 显存,也不算贵,性能差不多 V100 水平也够用了
    zzutmebwd
        29
    zzutmebwd  
       8h 6m ago via Android
    2080ti 适合跑 gemma4 12b 或者 qwen3.5 9b ,如果想好用最好在上一张 2080ti+nvlink 然后跑 qwwn3.6 35b 。
    27b 用 2080ti 跑起来非常慢,不推荐。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   959 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 72ms · UTC 19:47 · PVG 03:47 · LAX 12:47 · JFK 15:47
    ♥ Do have faith in what you're doing.