wwhc's recent timeline updates
wwhc

wwhc

V2EX member #145809, joined on 2015-11-05 06:54:06 +08:00
Today's activity rank 8342
wwhc's recent replies
@Jiajin
@junwind
不依赖别的工具,本地部署的 Qwen3.6 27B/35B 也能达到 GLM 的水准当使用“帮我生成一个天气查询 H5 应用”这个提示词
楼主的测试有偏差,本地部署的 Qwen3.6 27B/35B 使用楼主的提示词都能生成达到楼主图中 GLM 的水准的代码渲染,本地部署的 gpt-oss 120B 倒真是惨不忍睹,生成的的代码渲染出的页面没法看
差一点就能赶上 Qwen3.5 了
Qwen3.5 是适于本地部署的开源模型中最强的,Google 昨天新发布的开源 Gemma 4 模型也仅仅是追上 Qwen3.5 而已
罚太少了,我建议至少 5000 起步
Token 自由的感觉蛮不错
经验是用一到两块高性能大显存卡如 3090/4090/5090 ,再加上若干便宜的中低端卡(8-16GB 显存),把所有层都放进显存(能容纳的上下文越多越好,256k 大概需要 60GB 显存以上),尽可能多的把专家权重放到显存,一般能实现 10-20t/s 或以上的速度,建议使用 llama.cpp 而不是 vllm ,以便于快速迭代及灵活的硬件搭配
本地开源模型的表现:用楼主的复杂提示词,gpt-oss-120b 一次就成功完成了. Qwen3-Coder-Next-MXFP4 用了 5 次才成功,Qwen3.5-397B-A17B-MXFP4 3 次成功完成.成品质量最好的是 Qwen3.5-397B ,gpt-oss-120b 也算可以,但确实翻页有点慢
Qwen3.5 27B 很聪明,直接判定对方更“有理”,你是在耍流氓。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1056 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 18:43 · PVG 02:43 · LAX 11:43 · JFK 14:43
♥ Do have faith in what you're doing.