大模型小白推荐一下本地模型

jiezou · 2026-06-22T02:31:39Z

https://i.imgur.com/lsS0QHT.jpeg 有台闲置的小主机，换个 2080ti 魔改显卡，可能偏向于知识库的用途,能跑哪些本地模型呢？

本地模型

知识库

显卡

29 replies • 2026-06-23 19:40:45 +08:00

1

aptupdate

1 day ago via iPhone

这个性能和显存的卡好像也跑不了什么模型……
试试 Gemma4 吧，4B 应该能跑得起来。

2

jiezou

OP

1 day ago

@aptupdate 入门学习为主,跑业务肯定差得远

3

tool2dx

1 day ago

1

22G 显存基本上大部分本地模型都能跑了.

4

TwilightCool

1 day ago

2

https://www.canirun.ai/

5

NUT00

1 day ago

qwen3.6 27B 吧，上下文拉低一点，Q4 应该能跑

6

Ryanzlab

1 day ago

一点用都没有，8G 显存，打游戏都够呛，跑 AI 别想了

7

magic1187

1 day ago

至少 16G 显存吧，不然部署起来也没用。

8

unusualcat

1 day ago

1

你直接问 gpt 就行，让它给你推荐，你拉下来试用，看哪个满足你的需求。
我局域网里有一个 gtx1060 6gb 显卡的笔记本，装了 ollama ，合盖运行，映射端口给局域网另一台 Mac 电脑用。拿来翻译字幕，给视频做总结都可以的。写代码不行。
MacBook-Pro ~ % ollama list
NAME ID SIZE MODIFIED
demonbyron/HY-MT1.5-1.8B:latest f2ab05e35468 1.1 GB 15 hours ago
qwen3:4b 359d7dd4bcda 2.5 GB 17 hours ago
deepseek-r1:8b 6995872bfe4c 5.2 GB 20 hours ago
qwen3.5:2b-q4_K_M 124a03c34777 1.9 GB 20 hours ago
qwen3:4b-instruct-2507-q4_K_M 0edcdef34593 2.5 GB 20 hours ago
qwen2.5-coder:3b f72c60cabf62 1.9 GB 20 hours ago

8b 模型会溢出，变成内存➕显存混合跑，速度低很多。

9

ovtfkw

1 day ago

可以 @站长

10

rimworld

1 day ago

1

让 gpt 帮你配置内存推理的方案就行了，可以跑 26b 量化版本的模型。内存就是速度慢一点。只用显卡的话，那就是 4b ，6b 。

11

unknow1

1 day ago

1

重排模型：接入 bge-rerank 重排模型(ollama 不支持重排模型，需 docker 运行)或 qwen 重排模型
向量模型：modelscope.cn/Qwen/Qwen3-Embedding-4B-GGUF:latest
文本模型：modelscope.cn/Qwen/Qwen3-8B-GGUF:latest

12

unknow1

1 day ago

这三个测试用，要想好用，你这个配置不够

13

grimbedroom

1 day ago

1

https://www.canirun.ai/ 或许可以试试这个

14

jiezou

OP

1 day ago

感谢 v 友帮助，已购等到货上机测试。

15

Lin137

1 day ago

https://github.com/pewdiepie-archdaemon/odysseus
可以看下这个项目，里面有个 cookbook 的小功能，可以自动推荐自己机器最适合运行的本地大模型

16

opeth

1 day ago

2080ti 22G 可以跑 qwen3.6-35B-A3B ，也可以试一下 Gemma4 系列的模型

17

h4ckm310n

1 day ago

22G 显存，qwen3.6 35b 或者 gemma4 26b 吧

18

abel533

1 day ago

使用 llama-server ，可以试试 https://huggingface.co/unsloth/gemma-4-26B-A4B-it-qat-GGUF

我在 sd-webui 刚出的时候买了个 2080ti 11G ，用了几年后换了 22G ，现在跑这种小模型都没问题。你这主机配置太高了，我还用的 2015 年的至强+16G 内存，现在的 CPU 和内存成了瓶颈。

19

abel533

1 day ago

@abel533 还可以学学 comfyui ，试试 zimageturbo 生图（和 gptimage2 一样的效果（除去文字布局外）） 1K 的图基本上 10 秒左右出图。还可以试试 FLUX.2-klein-9B 的 image edit ，速度也很快。

20

Shielber

1 day ago

玩本地 AI 起步是 16G 显存，大部分人卡在这

21

jhytxy

1 day ago via iPhone

gemma4 31b qat
训练就针对 q4 量化

22

coefu

1 day ago

@Shielber 起步是 96G ，你打错数字了。

23

cowcomic

1 day ago

2080ti 的魔改版印象是 22G 显存
上 qwen3.5-9b 的 int4 量化版，上下文缩小点儿
还要留一部分显存跑 embedding 和 rerank 模型
embedding 推荐 gte-qwen2-1.5b ，能支持长上下文，RAG 神器，找个 int4 量化版本
rerank 推荐 bge-rerank-m2 ，能支持长上下文，RAG 神器
上面三个模型应该能勉勉强强装下，不够的话，就把 LLM 的上下文再缩一些，量化的话 int4 一下就不建议了

要是不非得追求私有化部署的话，买显卡的钱不如用线上模型了，现在都挺便宜的

24

PbCopy111

1 day ago

我也想跑本地来着，后来觉得还不如用免费模型呢。。。比如硅基的 qwen3-8b 起码免费的，我觉得用着跟本地大模型的速度差不多。

25

yh7gdiaYW

1 day ago

qwen3.6-35b-a3b-fp4 ，qwen3-embedding-0.6b-fp8,qwen3-rerank-0.6b-fp8 ，基本塞满显存

26

jiezou

OP

19h 34m ago

@cowcomic 实际业务有私有化要求的，不然肯定是线上的量大便宜。

27

v2wp

17h 42m ago

配置分配不多，推荐 Qwen3 4b instruct 2507 UD ，配置分配足够就推荐 Qwen3 30B A3B 或 Qwen3 Coder 30B A3B.

28

cowcomic

16h 48m ago

@jiezou 要是跑政府或者军工的业务的话，就别上这个显卡了，直接看国产卡，通常都是一卡 2 芯一共 64G 显存，也不算贵，性能差不多 V100 水平也够用了

29

zzutmebwd

8h 6m ago via Android

2080ti 适合跑 gemma4 12b 或者 qwen3.5 9b ，如果想好用最好在上一张 2080ti+nvlink 然后跑 qwwn3.6 35b 。
27b 用 2080ti 跑起来非常慢，不推荐。