V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xdygxh
V2EX  ›  OpenAI

有论文已经论证了: GPT4-0613 比 GPT4-0314 版本的表现更差

  •  1
     
  •   xdygxh · 2023-07-20 18:01:11 +08:00 · 3421 次点击
    这是一个创建于 523 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我先前的帖子指出,GPT4-0613 明显降低了回答质量。但是论证不严谨,有很多人反驳。 https://v2ex.com/t/953862

    然而,最近随着 Poe 的 GPT-4 也切换成了 0613 ,其表现肉眼可见的越来越差,写出的代码很少能够一次运行成功,Leetcode 上烂大街的 Medium 题,甚至都能写错。

    最近,来自 Stanford University 和 UC Berkeley 的研究者在论文中指出,GPT4-0613 在逻辑和写代码方面全方位的差。
    https://arxiv.org/pdf/2307.09009.pdf

    推上的博主 Santiago 也对该论文做出了总结:

    GPT-4 越来越差,而不是更好。许多人报告称他们注意到模型响应质量明显下降,但迄今为止都只是个别案例。但现在我们知道了。至少一项研究显示,GPT-4 的六月版本在几个任务上表现明显较三月发布的版本差。团队使用了一个包含 500 个问题的数据集对这些模型进行了评估,问题涉及判断给定整数是否为质数。三月份,GPT-4 正确回答了其中的 488 个问题。而到了六月,它只回答对了 12 个问题。从 97.6%的成功率降至 2.4%!更糟糕的是!团队使用了“思维链”( Chain-of-Thought )帮助模型推理:"17077 是一个质数吗?逐步思考。"“思维链”是一种常用的技术,可以显著改善答案。然而,最新版本的 GPT-4 没有生成中间步骤,而是简单地错误回答为“不是”。代码生成也变得更差了。团队构建了一个包含 50 个 LeetCode 中简单问题的数据集,并测量了 GPT-4 生成的答案中有多少能直接运行而不需要任何修改。三月版本成功解答了 52%的问题,但在六月版本中,这一比例下降到了可怜的 10%。为什么会发生这种情况?我们推测 OpenAI 在持续进行修改,但我们不知道具体的工作过程以及如何评估模型是进步还是退步。有传言称他们正在使用几个较小且专门化的 GPT-4 模型,这些模型的运行成本较低,但在用户提问时,系统会决定将查询发送给哪个模型。更便宜、更快,但这种新方法是否导致质量下降的问题?在我看来,对于任何基于 GPT-4 构建应用程序的人来说,这都是一个警示信号。一个语言模型的行为随着时间的推移而改变是不可接受的。你最近使用 GPT-4 和 ChatGPT 时有注意到任何问题吗?你认为这些问题被夸大了吗?

    13 条回复    2023-09-06 16:56:55 +08:00
    DABOBO
        1
    DABOBO  
       2023-07-20 18:12:37 +08:00
    plus 用户飘过,以前回答问题有惊喜,现在是白开水下肚,寡淡得紧。
    aitianci
        2
    aitianci  
       2023-07-20 18:16:50 +08:00   ❤️ 2
    因为 OpenAI 本身就是黑盒,你不知道他们自己对那一千多亿参数搞了什么,甚至不知道他们有没有限制功率消耗
    Volekingsg
        3
    Volekingsg  
       2023-07-20 19:18:06 +08:00
    https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time
    「为了进一步证明自己的看法,作者用 500 个合数测试了模型,结果是 3 月版本的 GPT-4 几乎总是猜测这些数字是质数,而 6 月版本则几乎认为是合数。——评估数据一换,结果就完全不同,这足以说明原作者的结论并不算立得住了。」
    Gekou
        4
    Gekou  
       2023-07-20 19:28:12 +08:00
    悲!早上我还为额度加倍开心呢🤔
    Tspm1eca
        5
    Tspm1eca  
       2023-07-20 20:58:36 +08:00 via iPhone
    Openai 再這樣搞下去,遲早搞死自己。
    xhs328
        6
    xhs328  
       2023-07-21 00:23:50 +08:00 via iPhone
    最新回应,“Based on developer feedback, we are extending support for gpt-3.5-turbo-0301 and gpt-4-0314 models in the OpenAI API until at least June 13, 2024.”
    CruelMoon
        7
    CruelMoon  
       2023-07-21 07:22:01 +08:00
    @xhs328 那可以放弃官方网页版转 poe 了
    cherryas
        8
    cherryas  
       2023-07-21 09:27:02 +08:00
    削弱很正常.本来就是超越时代的东西
    cherryas
        9
    cherryas  
       2023-07-21 09:28:10 +08:00
    快进到 200 刀一个月的 ultra plus 个人订阅 .

    这个版本才给你完全体
    Tspm1eca
        10
    Tspm1eca  
       2023-07-21 16:46:48 +08:00 via iPhone
    @CruelMoon Poe 也不能選模型吧
    CruelMoon
        11
    CruelMoon  
       2023-07-21 17:47:50 +08:00
    @Tspm1eca 之前有人测过 poe 还是用的老 api ,现在不清楚
    mingl0280
        12
    mingl0280  
       2023-07-22 23:25:44 +08:00 via Android
    重度 plus 用户路过,三月份左右的版本还好,现在的版本大部分问题上有点倒退,小部分数学问题上有进步。
    george2077
        13
    george2077  
       2023-09-06 16:56:55 +08:00
    为了省钱微调了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5339 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 07:50 · PVG 15:50 · LAX 23:50 · JFK 02:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.