Danswerme
V2EX  ›  Claude

Opus 4.8 真的好难用!

  •  1
     
  •   Danswerme · 1 day ago · 3234 views

    在 Claude Code 中使用 Opus 4.8 ,这几天一直遇到这些问题:

    1. 反应奇慢无比,间歇性一个问题思考 10 分钟以上仍然没有响应,必须手动停止对话然后 continue
    2. 频繁报错 The model's tool call could not be parsed (retry also failed)
    3. 输出中莫名夹杂着其他语言

    刚才一次性同时出现了这三个问题,给我气笑了:

      Read 1 file (ctrl+o to expand)
    
    ● この Table 组件が核心。normalLayout propと、表格高度・doLayout の処理を確認します。
    
      Read 1 file (ctrl+o to expand)
    
    ● The model's tool call could not be parsed (retry also failed).
    
    ✻ Worked for 12m 32s
    
    ❯ continue
    
    * Whatchamacalliting… (5m 51s · ↓ 1.7k tokens · almost done thinking)
    
    28 replies    2026-06-02 19:46:21 +08:00
    Danswerme
        1
    Danswerme  
    OP
       1 day ago   ❤️ 1
    怀念 4.6
    zoharSoul
        2
    zoharSoul  
       1 day ago   ❤️ 1
    4.7 感觉就不如 4.6
    FinnBai
        3
    FinnBai  
       1 day ago
    非常赞同,4.8 这次更新真是太差劲了
    zekeluii
        4
    zekeluii  
       1 day ago
    我今天用了 一天 opus 4.8 ,很正常啊,沒遇到問題啊
    zhuyao
        5
    zhuyao  
       1 day ago
    哈哈哈,我今天也出现日文了
    oouz
        6
    oouz  
       1 day ago
    是的,出现日文的概率挺大的,我最近遇到好几次了。
    而且,感觉逻辑性没有 codex 强,我今天用 Claude 写完一个需求,再让 Claude review 没发现问题,再使用 codex review 出来两个 bug ,把 bug 提供给 Claude 他自己也承认这两个 bug 真的存在。
    Plutooo
        7
    Plutooo  
       1 day ago
    一直在用 4.6 ,4.7 开始说的话已经听不懂了,一股 gpt5.4 的感觉
    coderfee
        8
    coderfee  
       1 day ago via Android
    哈哈哈,这谁能不被气笑。像已读乱回的同事。
    mnoputd20adfadf3
        9
    mnoputd20adfadf3  
       1 day ago
    我日本 韩文 都出现过 🤡 🤡 🤡
    kpprotector
        10
    kpprotector  
       1 day ago
    如果不加约束的话,日文、韩文、中文、英文会变来变去……
    不如 4.6 + 1
    leadfast
        11
    leadfast  
       1 day ago
    简单任务用 pi + deepseek 之后, 对比之下 claude code 太太太慢了
    w568w
        12
    w568w  
       1 day ago
    再补充个我遇到几次的 bug:模型有时会输出一大堆 tool calls ,但是不输出 finish 。于是从 API 角度来说,响应一直在进行,不给客户端返回结果的机会,模型就拿不到执行命令的结果。

    而 Opus 4.8 会出现幻觉,认为自己拿到了空白输出,于是就能看到这种奇观:

    ================
    (前略)

    $ grep -R xxx ./

    thinking: 奇怪,grep 没有返回任何结果,让我测试 Bash 工具是否正常。

    $ ls -l .

    $ echo ok

    $ echo ====probing====

    $ printf "yes\n"

    $ echo PROBING_OK

    thinking: 依然没有任何输出,Bash 工具可能存在问题。我需要向用户解释当前的工具状况。
    vlink
        13
    vlink  
       1 day ago
    我的体验是 4.7 不如 4.6 ,4.7 很恶心的点是输出中文时(文档、注释等地方)经常出现一些很不常用,很奇怪的词汇表达(「当前」->「目下」、「继续」->「续行」、「重新生成」->「再演」等)。以及某些词汇会出现像火星文一样,看字形能看出意思但是文字被替换的情况。我用的是 cursor 内的模型,模型肯定是正确的,感觉像是官方为了反蒸馏做了什么处理...
    4.8 用下来基本没出现 4.7 的这种情况,但是整体的体验下来和 4.6 、4.7 没有明显的大提升。
    chanssl
        14
    chanssl  
       1 day ago via Android
    还在用 4.6
    workbest
        15
    workbest  
       1 day ago
    大模型瓶颈时代来了
    teaguexiao
        16
    teaguexiao  
       1 day ago
    Opus 4.8 现在确实不稳定,我也遇到过类似的 tool call 解析失败,目前换回 Sonnet 4.5 反而更顺滑。重推理模型在 agentic 场景下容易超时,这不是你的求问方式有问题,就是这模型现阶段网络延迟太高。
    jaoyina
        17
    jaoyina  
       1 day ago
    4.8 出来 4.6 还能用吗?
    bwnjnOEI
        18
    bwnjnOEI  
       1 day ago via iPhone
    4.7 4.8 都会有但 4.8 尤为严重就是模型在回答中主动出现推理过程否定前面几句,感觉像是本应该在 tk 里的内容出现在普通回复里,像是他们的后训练在尝试不同的东西
    zed1018
        19
    zed1018  
       1 day ago
    我今天遇到的是,在之前 memory 已经都交代过的情况下,甚至 CLAUDE.md 里都关联过的情况下,既不看 UI 设计图,也不看接口文档,直接硬编码实现 app 逻辑。
    wenhuacode
        20
    wenhuacode  
       1 day ago
    用了一天,4.8 token 烧的太快
    XenoGear
        21
    XenoGear  
       16h 22m ago
    家乡のOPUS
    maxwellz
        22
    maxwellz  
       16h 2m ago
    有时候还会输出一堆 echo a1 a2 a3 a b c d e 啥的
    JerningChan
        23
    JerningChan  
       15h 37m ago
    由人工智能转向人工智障?😂
    yangyaofei
        24
    yangyaofei  
       12h 29m ago
    今天稍微尝试了一下, 模型特别自信, 像三哥一样自信, 而且一直说着听不懂的黑话, 黑话内容空洞/自信也是没有根据的自信
    nakun233
        25
    nakun233  
       12h 19m ago
    感觉还行,刚开始用 4.7 觉得没 4.6 好,后面高强度用下来规范还是有提升不少。4.8 目前啊用下来和 4.7 差不多,还经常顺手修无关本次问题的 BUG
    yh7gdiaYW
        26
    yh7gdiaYW  
       9h 29m ago
    直接烧 API 没有出现楼上的奇怪输出问题,套餐给加料了吧。总体感觉还是不错的,比 4.7 强,但比我记忆中的 4.6 弱
    Linioi
        27
    Linioi  
       9h 13m ago   ❤️ 1
    Opus 4.8 语气上比 Opus 4.7 舒服多了,并且最近额度似乎上调了很多,体感我 Pro 套餐 5h 额度大概有 $20 API 额度。之前我用 Opus 跑单 Agent 任务都是 10min 不到跑完 5h 额度,现在让我用得起 Opus 了。
    虽然 Opus 4.8 对比 Opus 4.6 还是有差距( Opus 4.5&4.6 在我这里已经是白月光了),但是比 Sonnet 4.6 还是强多了。所以现在 Pro 套餐的体感还是变好了。
    gefangshuai
        28
    gefangshuai  
       5h 48m ago
    4.8 能力确实强,但是最近不稳定,老出错
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1268 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 72ms · UTC 17:34 · PVG 01:34 · LAX 10:34 · JFK 13:34
    ♥ Do have faith in what you're doing.