这是一个创建于 230 天前的主题,其中的信息可能已经有所发展或是发生改变。
可能是我做过三年的优化重构,又主持过一些创业项目,特别重视节能减排。
我拿 llama.cpp 在集显笔记本上跑 llama3 中文-4bit ,毫无压力。
准备将来有机会产线也这么干。
求问有没有这样的产线案例,服务器是怎么样的,体验如何?
2 条回复 • 2024-05-18 18:38:19 +08:00
|
|
1
june4 230 天前
多大的模型,我的闲置老机上用 cpu 跑好慢,本来想用于给文章打标签,全文是肯定不行,但哪怕就标题和简介,也要要 20 秒一个。
|
|
|
2
gaobh 230 天前 via iPhone
得看有多少人访问,并发 token 多少,再决定上多少 gpu 服务器
|