rechardwong0522

rechardwong0522

V2EX member #701629, joined on 2024-07-19 12:43:19 +08:00
Per rechardwong0522's settings, the topics list is hidden
Deals info, including closed deals, is not hidden
rechardwong0522's recent replies
id 120
谢谢老板
FRE-93e5b055
老板发大财!
id:467
谢谢老板,恭喜发财!
最新版本,还是不行呢。

PS E:\kaiwu-windows-amd64> .\kaiwu.exe run .\Qwen3-30B-A3B-UD-Q3_K_XL.gguf

██╗ ██╗ █████╗ ██╗██╗ ██╗██╗ ██╗
██║ ██╔╝██╔══██╗██║██║ ██║██║ ██║
█████╔╝ ███████║██║██║ █╗ ██║██║ ██║
██╔═██╗ ██╔══██║██║██║███╗██║██║ ██║
██║ ██╗██║ ██║██║╚███╔███╔╝╚██████╔╝
╚═╝ ╚═╝╚═╝ ╚═╝╚═╝ ╚══╝╚══╝ ╚═════╝
本地大模型部署器 vv0.2.3 · llama.cpp b8864
by llmbbs.ai · 本地 AI 技术社区

[1/6] Probing hardware...
GPU: NVIDIA GeForce GTX 1070 Ti (SM61, 8192 MB VRAM, 256 GB/s)
RAM: 31 GB UNKNOWN
OS: windows amd64

[2/6] Selecting configuration...
Model: Qwen3-30B-A3B (moe, 29B total / 2B active)
Quant: Q3_K_M (12.9 GB)
Mode: moe_offload (experts on CPU)

[3/6] Checking files...
Using bundled iso3 binary: llama-server-cuda.exe
Binary: llama-server-cuda.exe [cached]
Model: Qwen3-30B-A3B-UD-Q3_K_XL.gguf [cached]

[4/6] Preflight check...
iso3 不可用( MinSM61 或非 turboquant binary ),回退到 q8_0/q4_0
✓ VRAM sufficient

[5/6] Warmup benchmark...
Probe 1: ctx=32K ... OOM
Probe 2: ctx=16K ... OOM
Probe 3: ctx=8K ... OOM
⚠️ Warmup failed: all ctx probes failed (tried down to 4K)
Using default parameters

[6/6] Starting server...
Waiting for llama-server to be ready (port 11434)...
⚠️ 显存不足,降低上下文至 4K 重试...
Waiting for llama-server to be ready (port 11434)...
Error: failed to start llama-server: 连续 2 次启动失败,即使最小上下文(4K)也无法运行

NVIDIA GeForce GTX 1070 Ti: 8192 MB VRAM
模型 Qwen3-30B-A3B: ~13189 MB
KV cache (4K, q4_0): ~96 MB
预估总需: ~14309 MB

差额: 6117 MB

建议:
1. 选择更小的量化 (Q4_K_M 或 Q2_K)
2. 选择更小的模型

Usage:
kaiwu run <model> [flags]

Flags:
--bench Run benchmark after starting
--ctx-size int 手动指定上下文大小( 0=自动)
--fast Skip warmup, use cached profile
-h, --help help for run
--host string 监听地址(默认 127.0.0.1 ,用 0.0.0.0 开放局域网) (default "127.0.0.1")
--llama-server string 使用自定义 llama-server 二进制(完整路径)
--reset 清除缓存,重新 warmup 探测最优参数
Apr 23
Replied to a topic by drooloo 职场话题 公司的 AI 客服被真人干掉了
个人认为 AI 客服其实不需要用到大模型这样的算力,垂直领域语料有限,再怎么微调也难以给出准确答案,特别是多轮对话场景就更难了。另外,大模型带来的幻觉会严重消耗用户的信任度。就像很多人说的,接电话的第一句就是转人工,目前也没有看到比较好的落地方案。
@sddyzm 好的,谢谢
感谢老哥开源。对于 Swift 初学者来说,PasteMemo 的架构和难度适合用来学习吗?
Y3UJ55YR5Y 试试,谢谢
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1244 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 17:38 · PVG 01:38 · LAX 10:38 · JFK 13:38
♥ Do have faith in what you're doing.