lithiumii

V2EX 第 365877 号会员，加入于 2018-11-26 17:23:48 +08:00

lithiumii 提问技术话题好玩工作信息交易信息城市相关

怎样排查 Linux 下的系统盘是否掉盘？

Linux • lithiumii • 2022-10-18 18:01:21 PM • 最后回复来自 hootigger

9

» lithiumii 创建的更多主题

lithiumii 最近回复了

17 天前

回复了 Debug1998 创建的主题 › 宽带症候群 › 大家推荐一个千兆口稳定跑旁路由的设备？

千兆旁路由我是树莓派 4b ，感觉绰绰有余

46 天前

回复了 zcm3579 创建的主题 › Local LLM › 如何估算一个大模型需要用到什么性能配置的硬件？

理论上最低限度的跑起来：显存 + 内存 + 硬盘 > 模型 + context
但是比较傻瓜的软件（比如 ollama ）一般不能直接把硬盘当缓存用，所以比较傻瓜的一键跑起来：显存 + 内存 > 模型 + context
人的阅读速度大概是 5 token 每秒，所以跑起来并且速度勉强能用：每秒 token 数 > 5
因为速度主要瓶颈是内存或显存的带宽，普通家用双通道 < 服务器 4 通道 < 中低端显卡、苹果统一内存 < 高端显卡，所以模型放到显卡的比例越大，速度越快。另外就是做推理的时候模型不同的层可以放进不同的显卡，不走 nvlink 仍然速度很快，因为不同的层之间通信要求没有那么高，所以多个 PCIe 槽直接插多显卡就可以放下更大的模型并且获得更快的速度。
最后是计算模型体积，一般的完整模型 fp16 每 B 近似 2G ，量化到 q4 的模型近似 0.5G 每 B ，但是这样算太粗糙了可以再加个 20% 当余量。context 计算很麻烦，不同参数的模型需要的不一样，而且可以自己调高调低，ollama 默认给得非常低只有 2k （很多模型支持到 128k ），所以再加个 10% 当余量。
那就是显存 + 内存 > 1.3 × 模型体积。

47 天前

回复了 886106 创建的主题 › Apple › Studio M4max 128G 是否合适跑大模型

能，但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ，往下 70B 之类的魔改显卡也能了，还更快。

55 天前

回复了 nexmoe 创建的主题 › 分享创造 › Free QWQ - 世界首个免费无限制分布式 QwQ API

petals 比你们早吧，而且是小显存的卡分布式部署大于单卡显存的模型。可惜免费节点已经没人跑了。

» lithiumii 创建的更多回复