mythabc

mythabc

V2EX 第 165026 号会员,加入于 2016-03-27 12:40:20 +08:00
今日活跃度排名 24129
根据 mythabc 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
mythabc 最近回复了
没中奖。。。
20 天前
回复了 mrjnamei 创建的主题 职场话题 裁员了,裁员了,裁员了
接裁神
28 天前
回复了 fid 创建的主题 Local LLM 8x4090 离线部署 Qwen2.5 求助
1. 为什么单张可用 60%? 把其他任务都集中到 4 张显卡上,剩余 4 张用于跑 72b-awq 。多卡不建议超过 4 张,因为通信成本。
2. vllm 支持量化模型的。生产上用的最多的就是 vllm ,然后是 sglang (但是个人体感 sglang 比 vllm 稳定一些,因为版本都在不断迭代,所以仅是时效性的使用感受)。ollama 基于 llama.cpp ,这个项目最初就是用于在资源有限环境把模型 offload 到内存里跑起来的,一般就是个人玩具使用。
3. 喜欢一键的话,可以试一下 xinference ,有 docker 镜像,挺好用。
4. web 方案其实是各种 web client + openai style api ,各个推理引擎以 openai style api 将接口提供出来,兼容各类应用。
36 天前
回复了 yilon 创建的主题 职场话题 技术和业务需求哪个牛逼?
懂业务的技术和懂技术的业务牛逼。
@yousikicn macbook 的传统是一个模具用三代,可以找到部分媒体的“风声”,m4 是最后一代刘海屏了。刘海屏是真的丑,也没塞什么传感器。

(不能下代换个灵动岛把...
再等等,下代换模具
产品自己写。写提示词这种需求非常模糊,常常连需求都描述不清楚,。
前者感觉会被开源干爆,兼并到后面只有几个大公司有相关的岗位,中小公司全用开源标准。
后者感觉是对目前模型能力的修修补补,模型能力一提升上来,就废掉很多方向,例如 RAG 原来可能要很复杂的检索召回方案,后来粗略检索一下往上下文里面使劲怼就行了。
deepseek 的 json output 。或者在 LLM 结束之后加一个 json_repair ,或者捕获异常进行重试。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1330 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 17:31 · PVG 01:31 · LAX 09:31 · JFK 12:31
Developed with CodeLauncher
♥ Do have faith in what you're doing.