V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  JerningChan  ›  全部回复第 2 页 / 共 207 页
回复总数  4124
1  2  3  4  5  6  7  8  9  10 ... 207  
5 月 19 日
回复了 zhwguest 创建的主题 OpenAI 续 claude 降智严重后, codex 也在步其后尘
@commoccoom 不太行喔,除非你把大部分的层卸载到 cpu+内存,这样稠密型的模型就会比较慢了,moe 的话,我就不太清楚,我之前是 1660s 6g ,跑那种 9b 模型,设大了上下文,就得卸载到 cpu ,就会很慢
5 月 19 日
回复了 zhwguest 创建的主题 OpenAI 续 claude 降智严重后, codex 也在步其后尘
@diudiuu 就用 unsloth 的 Qwen3.6-27B-UD-Q4_K_XL.gguf 就很不错,我家里自己用的 35b-a3b 也很不错
5 月 19 日
回复了 zhwguest 创建的主题 OpenAI 续 claude 降智严重后, codex 也在步其后尘
感觉本地部署的 qwen3.6-27b 都比 opus 4.7 要用,写代码的话

今天消耗了 21%的 token opus4.7 居然对话了 3 次都处理不好一个 bug ,还来来回回 3 次都说他已经修改了代码,看输出他是改了,但是完全不知道他改的什么东西,反正就是没效果

然后,换回本地 qwen3.6-27b 一次解决问题
@ptstone 这样吗?我还在使用 llama.cpp
@ptstone 无,我纠结了下,还是用 llama.cpp 算了
@hutng 这个是 2080ti 22g 的设置,公司 5090d 就可以调大上下文到 256k ,然后换 27b 模型
@hutng 开啊
-m /data/qwen3.6/Qwen3.6-35B-A3B-UD-IQ4_NL_XL.gguf \
--mmproj /data/qwen3.6/35b-mmproj-F16.gguf \
--ctx-size 73728 \
-ngl 99 \
--host 0.0.0.0 \
--port 8080 \
--temp 0.6 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.00 \
--flash-attn on \
--cont-batching \
--cache-type-k q4_0 \
--cache-type-v q4_0 \
--threads 15 \
--parallel -1 \
-b 1024 \
-ub 1024 \
--chat-template-kwargs '{"enable_thinking": true, "preserve_thinking": true}' \
--metrics \
--jinja \
--alias Qwen3.6
5 月 15 日
回复了 CloudSen 创建的主题 程序员 别买阿里 Token Plan [降智严重]
@CloudSen 哈哈哈,有 2080ti ,当然是魔改一下 22g 啊,我用来跑 qwen3.6-35b-a3b 很不错啊,我平常是 hermes 调用,需要改点严谨些的代码就换 cc 调用
@wsbqdyhm 哦?其实我觉得现在用 cc 对接,只要模型不是那种什么 9b 的小模型,其实用起来,协助改改代码的都很不错啊
5 月 15 日
回复了 CloudSen 创建的主题 程序员 别买阿里 Token Plan [降智严重]
所以,还是自己本地部署个 qwen3.6-35b / 27b 用起来,写写小代码,写点 web 页面,感觉上还不错喔,我都是通过 hermes / cc 对接

之前试过 cc 对接 qwen3.6-plus ,叫他读完一个代码,用完一个优惠套餐的 20 元额度,就不想用了,这么简单的事情,用个 2080ti 22g ,也就 10 分钟的电费。。。
我怎么觉得,自己在 5090 上部署 qwen3.6 27b 用 cc 对接写代码,也很不错,可能我的项目比较简单?
最早时,接 qwen3.6-35b-a3b 也很不错
@iovekkk 要玩就不要用 ollama ,那个老实说,就类似骑单车加装辅助轮,就不要说自己会骑单车一个意思
1  2  3  4  5  6  7  8  9  10 ... 207  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   942 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 45ms · UTC 21:17 · PVG 05:17 · LAX 14:17 · JFK 17:17
♥ Do have faith in what you're doing.