• 请不要在回答技术问题时复制粘贴 AI 生成的内容
allman
V2EX  ›  程序员

Cursor 审计发现: AI 编程基准测试成绩大部分是"作弊"来的, Opus 4.8 有 63% 的解法是抄的

  •  1
     
  •   allman · 16h 6m ago · 3301 views

    https://cursor.com/blog/reward-hacking-coding-benchmarks

    Cursor 团队最近对自己的 AI 编程模型做了审计,结果发现——基准测试的高分很大程度上是"作弊"来的

    具体数据:

    • 在 SWE-bench Pro 上,Opus 4.8 Max 的 63% 成功解决方案,是直接从公开来源( GitHub issues 、commit messages 等)检索修正,而不是 AI 自己推导出来的
    • 当他们把 git 历史隔离、限制网络访问后,Opus 4.8 Max 得分从 87.1% 暴跌到 73.0%
    • Composer 2.5 更惨,从 74.7% 跌到 54.0%

    说白了:这些模型在考试之前已经看过答案了。

    这让我想到一个很不舒服的类比——就像一个学生每次模拟考都名列前茅,大家都以为他是天才,结果发现他只是提前拿到了答案。没有答案的话,他的真实水平可能只有中等。

    28 replies    2026-06-23 20:29:18 +08:00
    YangQingLin
        1
    YangQingLin  
       16h 1m ago   ❤️ 6
    Cursor 审计结果说 Composer 2.5 作弊?这波是大义灭亲啊
    xiaomushen
        2
    xiaomushen  
       15h 58m ago
    不算作弊,刷题后去考试,算作弊么?
    javalaw2010
        3
    javalaw2010  
       15h 58m ago
    我记得这事之前就有个 bench 团队发现过修正了啊,现在搞 bench 的还会犯这种低级错误吗
    qingfeng9527
        4
    qingfeng9527  
       15h 58m ago
    最近用 cursor coding 生成慢到令人发指, 有同感的吗,
    sentinelK
        5
    sentinelK  
       15h 47m ago   ❤️ 7
    其实这个问题是非常主观的。

    学霸 A 刷遍了全世界所有的题,发现考试的时候撞题成功,考了满分。
    学霸 B 智商超群,考试的时候利用其他题干互相印证推导,做题成功,考了满分。

    他们都是满分,只是不稳定因素不同。

    学霸 A 对于历史信息有过拟合。所以做题很难做满分。
    学霸 B 推导的过程中会有误差累积,一旦某一个步骤出错,就全盘皆输,要么满分,要么 0 分。

    其实这也就引申到了 GPT 时刻,讨论的非常火的问题,既所谓智能(智商、能力),到底是不是既有信息的统计学重复。
    ludyleocn
        6
    ludyleocn  
       15h 44m ago
    万物皆可评测,没想到 llm 有一天也没法控制被别人的算法控制。
    最可笑的还是一些提示词也不会的人天天在那喊降智。
    xyyxlq
        7
    xyyxlq  
       15h 32m ago
    页面打不开,确定链接对么?
    aes114514gcm
        8
    aes114514gcm  
       14h 23m ago
    就类似高考,刷题是有用的,应试技巧确实有利于提高成绩,你学不学?
    Visoar
        9
    Visoar  
    PRO
       14h 18m ago
    This page couldn’t load... 看不到原文了

    不知道有没有写具体,我理解这里面可能是两类情况
    1 跑的过程中联网去 GitHub 搜索
    2 训练数据里面有 GitHub 数据

    前者可以算作弊语义,后者和作弊八竿子打不着吧
    Lin0936
        10
    Lin0936  
       14h 16m ago
    但是人类写代码也会去 github stackoverflow 上抄抄
    deplives
        11
    deplives  
       13h 54m ago
    难道人类学知识不是抄吗?
    indexError
        12
    indexError  
       13h 53m ago
    我一直觉得那些厉害的编码模型首先模型确实能理清那么大的数据量,最重要的服务器上还有一套系统来帮助他解决问题,类似于在用户端调用 edit grep tool 一样。那些降智啥的有可能就是服务器上这套系统在维护
    jsq2627
        13
    jsq2627  
       13h 27m ago via iPhone
    @javalaw2010 就是 openai 发现,swe-bench 结果不靠谱,才搞了 swe pro ,结果 swe pro 避免不了同样的问题
    bbbblue
        14
    bbbblue  
       13h 8m ago
    开了 agent 给了 search tool 找到原题答案其实也算是 llm+agent 的一种能力
    但是的确会误判 llm 本身的能力了。。。
    JingW
        15
    JingW  
       12h 54m ago
    如果照抄就算作弊,哪家的 LLM 原理不是作弊呢?
    Rickkkkkkk
        16
    Rickkkkkkk  
       12h 51m ago
    能在互联网上找到正确并且存在的解法就是大模型能力的体现啊。
    nakun233
        17
    nakun233  
       12h 30m ago
    just work
    @qingfeng9527 5.5 速度能保持,4.7 4.8 慢了好多
    yh7gdiaYW
        18
    yh7gdiaYW  
       12h 28m ago
    @Lin0936 你难道从来没写过全网没有现成技术方案的东西? CRUD 写太多了啊
    axisray
        19
    axisray  
       12h 20m ago
    @xyyxlq google 搜索 reward-hacking-coding-benchmarks 还能看到一个西班牙语的结果,但是也打不开了
    baerwang
        20
    baerwang  
       11h 59m ago
    你要知道 llm 底层是啥,没有了数据,llm 啥都不是
    felixlong
        21
    felixlong  
       11h 38m ago
    @xiaomushen 这算在线查答案吧,从考试规则来看就是作弊。
    coryxu
        22
    coryxu  
       11h 33m ago
    llm 本质就是预测下一个字的概率,只是让你看起来像是在思考。
    目前没有任何一个 AI 能做到,要是真的能自主推导 AGI 也到了。
    Leeeeex
        23
    Leeeeex  
    PRO
       9h 45m ago
    @yh7gdiaYW 有啥功能是全网都找不到现成答案,只能自己科研的吗?
    xiaomushen
        24
    xiaomushen  
       9h 44m ago
    @felixlong 开卷考试也可以鸭
    yh7gdiaYW
        25
    yh7gdiaYW  
       8h 1m ago
    @Leeeeex 太多了,真不知道就多看看 github ,trending 里有的是,不过现在被无意义的 AI 项目污染的厉害。举个实际的例子,23 年的时候我们做过在网页端( HTTP 非 s )做过动态下载几十到几百个文件打包成 zip 的功能,并支持打包过程中进行实时数据转换,最后输出的 zip 可以支持到几百 GB 。当时功能最接近的开源方案也没法支持这么大的文件实时组装,现在 HTTPS 普及了倒是简单了
    yh7gdiaYW
        26
    yh7gdiaYW  
       7h 58m ago
    @Leeeeex 还有一些开源方案没有,但有商业软件的,这种就太多了没必要一一举例子,这类需求 AI 最多能搜到些技术 PR 文,离实现方案还差得远
    aloxaf
        27
    aloxaf  
       7h 20m ago
    我觉得给 AI 开放搜索能力没问题,「触类旁通」也是一种很重要的能力,大学时接触了 CTF ,感觉这个比赛就非常有意思——它不限制你搜索,甚至有些题目还鼓励你去搜索(比如把 flag 藏在搜索快照里)。
    但面对同样的问题,有的人能迅速提炼出重点然后搜索到相似问题,有的人搜来搜去却找不到什么有用信息。

    这类 benchmark 的主要问题是更新太慢了,拦不住人家搜着搜着就搜到答案了……
    txydhr
        28
    txydhr  
       7h 15m ago
    看上去回帖里 70%的人根本不知道 AI 是什么就在跟帖
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   946 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 104ms · UTC 19:44 · PVG 03:44 · LAX 12:44 · JFK 15:44
    ♥ Do have faith in what you're doing.