V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
walterdarrell063
V2EX  ›  OpenAI

算了吧 支乎说 LLMs 只是 auto complete

  •  
  •   walterdarrell063 · 3 天前 via Android · 625 次点击

    高考数学做不了 生物学題也做不了

    我天朝一年約一千万高中生呢? 誰怕誰?

    有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。问:父亲为什么崩溃了?

    7 条回复
    walterdarrell063
        1
    walterdarrell063  
    OP
       3 天前 via Android
    自己經驗
    o1, o1 pro mode 也不行

    有人說 o1 preview 反而可以
    kizunai
        2
    kizunai  
       3 天前
    即使是当前排行榜第一的 Gemini-Exp-1206 ,也回答不对,如果不刻意往色盲那方面引导的话,大模型根本不可能想得到答案。

    以下是 Gemini-Exp-1206 的回复,虽然看起来说得很有道理:
    “女儿的动机可能不仅仅是逃避惩罚: 如果只是想把分数改高,最简单的方法是用同一种颜色的笔,这样更不容易被发现。她特意用两种颜色,有可能不是为了掩盖什么,而是因为她当时只有这两种颜色的笔。这暗示了她可能家庭条件并不好,甚至没有一支完整的笔。”
    lucifer9
        3
    lucifer9  
       3 天前
    你不说清楚上下文,估计高中生来了也答不对
    cslive
        4
    cslive  
       3 天前
    o1 preview 居然可以
    muzei233
        5
    muzei233  
       3 天前 via Android
    你这我也答不出来
    walterdarrell063
        6
    walterdarrell063  
    OP
       3 天前
    @lucifer9
    @cslive

    这些跟其他測試問題一樣,
    我測的当時告知 o1, o1 pro mode 答案了。
    它"學"了, 入題库了。
    但你改一下, 它 tmd 又不会了。
    walterdarrell063
        7
    walterdarrell063  
    OP
       3 天前
    @walterdarrell063 已經很多很多人問过同一問題了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5057 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 07:49 · PVG 15:49 · LAX 23:49 · JFK 02:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.