V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
qdwang
V2EX  ›  分享发现

glm 5 和 minimax m2.5 都挺菜的

  •  
  •   qdwang · 14 小时 55 分钟前 · 2502 次点击

    问题:我想去洗车,洗车店距离我家 50 米,考虑到环保,你说我应该骑车去还是开车去?(注意陷阱)


    都是 API 测试,我都提示他们有陷阱了,还做不对。


    glm 5 回答:走路去。陷阱在于:题目故意只给你两个选项(骑车或开车),诱导你在两个都不合适的选项中纠结,让你忽略了最简单、最环保的方案——走路。

    minimax m2.5 回答:骑车去。原因很简单:你目的是去洗车,等你到了洗车店,车就要被清洗了。如果你开车去,到达时车已经是脏的,还要把脏车停在洗车店,这完全多此一举。

    Kimi K2.5 回答:开车去。你要洗车,就必须把车带到洗车店。


    大家可以试试

    37 条回复    2026-02-14 23:01:46 +08:00
    YanSeven
        1
    YanSeven  
       14 小时 42 分钟前
    国内这几家小的在算力,用户(用户数据)上都比不上美国那三家。菜是必然的,除非真在核心架构上鼓捣出高级的东西。

    便宜+能覆盖部分低级场景就行。就好像一个低级开发,工作经验+给的工资本来就没那么多,表现一般合情合理。

    有发展的后劲就行。
    Dabney
        2
    Dabney  
       14 小时 42 分钟前
    glm 5 还是聪明,给你第三个选择 🤣
    dfdd1811
        3
    dfdd1811  
       14 小时 42 分钟前   ❤️ 1
    deepseek:建议你骑车去洗车。
    豆包:环保必须骑车或不行,要不要帮你计算一下汽车冷启动一次的油耗。
    我看是国产模型全军覆没吧。
    gemini 上来就识别出来是“逻辑挑战”不知道是真聪明,还是被问过。
    MagicalCarl
        4
    MagicalCarl  
       14 小时 20 分钟前
    Kimi K2.5
    qdwang
        5
    qdwang  
    OP
       14 小时 17 分钟前 via iPhone
    @Dabney 还真是
    foryou2023
        6
    foryou2023  
       14 小时 16 分钟前
    我测试过 ds ,我的是开车去,但是看到不少其他人的是走过去。
    qdwang
        7
    qdwang  
    OP
       14 小时 16 分钟前 via iPhone
    @MagicalCarl 哈哈哈 确实环保
    soulflysimple123
        8
    soulflysimple123  
       14 小时 5 分钟前
    测了个 glm5,思考了一大推最后总结如下:
    总结:
    如果是去送车洗,请开车(物理刚需);如果是人过去,请步行( 50 米骑车纯属多此一举)。最环保的方案是:下次直接在手机上下单“上门洗车”。


    我想去洗车,洗车店距离我家 50 米,... →点击查看智谱清言的回答
    https://chatglm.cn/share/AFcRP0ML
    shm7
        9
    shm7  
       13 小时 44 分钟前
    每次结果都不同,我试了 kimi qwen doubao ds ,qwen 和 ds 是可以的
    qqqasdwx
        10
    qqqasdwx  
       13 小时 28 分钟前
    啊?不是说 glm5 能和 claude sonnet 4.5 打平吗
    catazshadow
        11
    catazshadow  
       13 小时 27 分钟前 via Android
    @YanSeven 没后劲的,被制裁没算力就罢了,捂嘴干死数据量是无解的
    woodongwong
        12
    woodongwong  
       13 小时 24 分钟前
    gpt5.3 codex xhigh 都能回答错,但是你不得否认它撸码确实强。
    jackchenly
        13
    jackchenly  
       13 小时 12 分钟前
    刚才问 deepseek 回答对了
    jackchenly
        14
    jackchenly  
       13 小时 11 分钟前
    @jackchenly 考虑到你要洗的是汽车,而洗车店距离你家只有 50 米,你只有开车才能把车送到洗车店。如果骑车去,汽车还停在家里,无法完成洗车。因此,从实际需求出发,你必须开车去。虽然开车会产生排放,但距离很短,影响较小。这就是问题中的陷阱:环保考量不能忽视洗车的必要性。
    redbule
        15
    redbule  
       12 小时 29 分钟前 via Android
    @catazshadow 这是什么 rz 案例啊,和 coding 一毛钱关系都没有
    Liftman
        16
    Liftman  
       11 小时 55 分钟前
    自娱自乐。聊以慰藉。咱的特色。上面有文件,天天都有阵风。很烦的。
    xiaoz
        17
    xiaoz  
       11 小时 38 分钟前   ❤️ 8
    拿一个单一的问题来对比测试是否过于片面性?
    xiaoliuzhenshuai
        18
    xiaoliuzhenshuai  
       10 小时 39 分钟前
    刚才问 deepseek 回答错了,千问对了也是因为引用读了已经得答案(因为有很多这个问题了),gemini ,Claude ,chatgpt 没问题
    Rrrrrr
        19
    Rrrrrr  
       10 小时 17 分钟前
    最后一个,恐怕是修正后的回答
    xxlsize
        20
    xxlsize  
       10 小时 14 分钟前
    我只关心 coding 能力
    lixintcwdsg
        21
    lixintcwdsg  
       10 小时 3 分钟前
    @MagicalCarl 应该自动埋了提示词,运营随时抓这种热点来补
    Massif5279
        22
    Massif5279  
       9 小时 31 分钟前

    试了几个模型,就 gemini 答对了
    zerovoid
        23
    zerovoid  
       9 小时 18 分钟前
    这问题用这个来测试 AI ,感觉没啥意义,对 AI 来说,洗车必须带着自己的车去洗车店,这估计不是一个常识。
    而且以后网上这类问题多了,AI 学了也就都会回答了。
    murmur
        24
    murmur  
       8 小时 58 分钟前
    有没有可能,国内有家用洗车机,人力成本也便宜,AI 可以让你找人上门洗车

    “你本来就是去洗车,再开过去一趟,路上又会沾灰,等于白洗一小半。”

    豆包说的有道理,刚洗完车 50 米就开回家,太折腾了,还不如下次出远门再洗
    leena
        25
    leena  
       8 小时 40 分钟前 via iPhone
    没说让你扛着去就算好的了,还骑车去,😂😂😂
    atrexl
        26
    atrexl  
       8 小时 33 分钟前 via Android
    @YanSeven 又反思上了。试了一下 grok 和 gemini ,一样答的乱七八糟。
    jimrok
        27
    jimrok  
       8 小时 9 分钟前
    稍微复杂点代码,我试了 GLM 和 minimax 都比较菜,GLM 还执行的很慢,浪费钱的玩意,一些代码 minimax 修复不了,还得换其他模型来解决。现阶段编程生产力应该只看 google 和 claud ,国产必须突破弱智这个点后,才能成为生产力工具,这个不是靠嘴炮能解决的。
    chenshun00
        28
    chenshun00  
       6 小时 55 分钟前
    我用 gpt 他也回答走路去啊
    ybybwdwd
        29
    ybybwdwd  
       6 小时 53 分钟前
    我试了一圈只有哈基米和 qwen 答对了,难道哈基米和 qwen 就比 chatgpt 和 claude 强吗?
    chenshun00
        30
    chenshun00  
       6 小时 49 分钟前
    GLM5 新鲜出炉

    这是一个经典的逻辑陷阱题,答案并不在“骑车”还是“开车”之间,而在于任务本身。

    答案是:你应该开车去。

    原因如下:

    逻辑悖论(核心陷阱):
    你去洗车店的目的是“洗车”。如果你选择“骑车”(通常指骑自行车或电动车),那么你的汽车还停在家里。你人到了洗车店,车没到,那你去洗什么呢?
    要完成“洗车”这个任务,你必须把待洗的车辆开到现场。

    环保与实际情况的冲突:
    虽然只有 50 米的距离,开车会产生冷启动排放(并不环保),但为了达成“洗车”这一目的,移动车辆是必须的刚性需求。
    WilliamColton
        31
    WilliamColton  
       6 小时 1 分钟前
    gpt 回答是开车去,不过他还补充说可以推车去哈哈哈,智商可以
    yoshiyuki
        32
    yoshiyuki  
       5 小时 59 分钟前
    陷阱问题的回答不能作为代表智力水平评价
    ColinWei
        33
    ColinWei  
       5 小时 14 分钟前   ❤️ 4
    本想进来看一下专业测评对比的,没想到还是这种烂大街的标题党,纯污染!
    qdwang
        34
    qdwang  
    OP
       4 小时 53 分钟前
    @ColinWei 还真不是,这种地方可以看出一个模型是否会忽略最关键的指示,比如我提示词里的(注意陷阱),如果这么短提示词里这么明显的关键词都会被忽略,这 LLM 用在真实环境里,必然会出现更多问题。
    YanSeven
        35
    YanSeven  
       4 小时 46 分钟前
    @atrexl 这有啥反思的。。。算力,用户,顶尖人才,开创者都是美国那边多。实打实的物质上的丰富,事实摆着这有啥好反思的。。。并且,说老外的模型,一般默认是 Claude,ChatGPT,然后可能是 gemini. grok 似乎都排不上。
    sirm2z
        36
    sirm2z  
       3 小时 17 分钟前 via iPhone
    基本都是面向编程发力的吧
    byron
        37
    byron  
       2 小时 7 分钟前
    那我要是骑自行车呢,为什么不能骑车去呢?
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1044 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 17:08 · PVG 01:08 · LAX 09:08 · JFK 12:08
    ♥ Do have faith in what you're doing.