Cursor 审计发现： AI 编程基准测试成绩大部分是"作弊"来的， Opus 4.8 有 63% 的解法是抄的

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

https://cursor.com/blog/reward-hacking-coding-benchmarks

Cursor 团队最近对自己的 AI 编程模型做了审计，结果发现——基准测试的高分很大程度上是"作弊"来的。

具体数据：

在 SWE-bench Pro 上，Opus 4.8 Max 的 63% 成功解决方案，是直接从公开来源（ GitHub issues 、commit messages 等）检索修正，而不是 AI 自己推导出来的
当他们把 git 历史隔离、限制网络访问后，Opus 4.8 Max 得分从 87.1% 暴跌到 73.0%
Composer 2.5 更惨，从 74.7% 跌到 54.0%

说白了：这些模型在考试之前已经看过答案了。

这让我想到一个很不舒服的类比——就像一个学生每次模拟考都名列前茅，大家都以为他是天才，结果发现他只是提前拿到了答案。没有答案的话，他的真实水平可能只有中等。

编程

作弊

28 replies • 2026-06-23 20:29:18 +08:00

YangQingLin

16h 1m ago

Cursor 审计结果说 Composer 2.5 作弊？这波是大义灭亲啊

xiaomushen

15h 58m ago

不算作弊，刷题后去考试，算作弊么？

javalaw2010

15h 58m ago

我记得这事之前就有个 bench 团队发现过修正了啊，现在搞 bench 的还会犯这种低级错误吗

qingfeng9527

15h 58m ago

最近用 cursor coding 生成慢到令人发指, 有同感的吗,

sentinelK

15h 47m ago

其实这个问题是非常主观的。

学霸 A 刷遍了全世界所有的题，发现考试的时候撞题成功，考了满分。
学霸 B 智商超群，考试的时候利用其他题干互相印证推导，做题成功，考了满分。

他们都是满分，只是不稳定因素不同。

学霸 A 对于历史信息有过拟合。所以做题很难做满分。
学霸 B 推导的过程中会有误差累积，一旦某一个步骤出错，就全盘皆输，要么满分，要么 0 分。

其实这也就引申到了 GPT 时刻，讨论的非常火的问题，既所谓智能（智商、能力），到底是不是既有信息的统计学重复。

ludyleocn

15h 44m ago

万物皆可评测，没想到 llm 有一天也没法控制被别人的算法控制。
最可笑的还是一些提示词也不会的人天天在那喊降智。

xyyxlq

15h 32m ago

页面打不开，确定链接对么？

aes114514gcm

14h 23m ago

就类似高考，刷题是有用的，应试技巧确实有利于提高成绩，你学不学？

Visoar

PRO

14h 18m ago

This page couldn’t load... 看不到原文了

不知道有没有写具体，我理解这里面可能是两类情况
1 跑的过程中联网去 GitHub 搜索
2 训练数据里面有 GitHub 数据

前者可以算作弊语义，后者和作弊八竿子打不着吧

Lin0936

14h 16m ago

但是人类写代码也会去 github stackoverflow 上抄抄

deplives

13h 54m ago

难道人类学知识不是抄吗？

indexError

13h 53m ago

我一直觉得那些厉害的编码模型首先模型确实能理清那么大的数据量，最重要的服务器上还有一套系统来帮助他解决问题，类似于在用户端调用 edit grep tool 一样。那些降智啥的有可能就是服务器上这套系统在维护

jsq2627

13h 27m ago via iPhone

@javalaw2010 就是 openai 发现，swe-bench 结果不靠谱，才搞了 swe pro ，结果 swe pro 避免不了同样的问题

bbbblue

13h 8m ago

开了 agent 给了 search tool 找到原题答案其实也算是 llm+agent 的一种能力
但是的确会误判 llm 本身的能力了。。。

JingW

12h 54m ago

如果照抄就算作弊，哪家的 LLM 原理不是作弊呢？

Rickkkkkkk

12h 51m ago

能在互联网上找到正确并且存在的解法就是大模型能力的体现啊。

nakun233

12h 30m ago

just work
@qingfeng9527 5.5 速度能保持，4.7 4.8 慢了好多

yh7gdiaYW

12h 28m ago

@Lin0936 你难道从来没写过全网没有现成技术方案的东西？ CRUD 写太多了啊

axisray

12h 20m ago

@xyyxlq google 搜索 reward-hacking-coding-benchmarks 还能看到一个西班牙语的结果，但是也打不开了

baerwang

11h 59m ago

你要知道 llm 底层是啥，没有了数据，llm 啥都不是

felixlong

11h 38m ago

@xiaomushen 这算在线查答案吧，从考试规则来看就是作弊。

coryxu

11h 33m ago

llm 本质就是预测下一个字的概率，只是让你看起来像是在思考。
目前没有任何一个 AI 能做到，要是真的能自主推导 AGI 也到了。

Leeeeex

PRO

9h 45m ago

@yh7gdiaYW 有啥功能是全网都找不到现成答案，只能自己科研的吗？

xiaomushen

9h 44m ago

@felixlong 开卷考试也可以鸭

yh7gdiaYW

8h 1m ago

@Leeeeex 太多了，真不知道就多看看 github ，trending 里有的是，不过现在被无意义的 AI 项目污染的厉害。举个实际的例子，23 年的时候我们做过在网页端（ HTTP 非 s ）做过动态下载几十到几百个文件打包成 zip 的功能，并支持打包过程中进行实时数据转换，最后输出的 zip 可以支持到几百 GB 。当时功能最接近的开源方案也没法支持这么大的文件实时组装，现在 HTTPS 普及了倒是简单了

yh7gdiaYW

7h 58m ago

@Leeeeex 还有一些开源方案没有，但有商业软件的，这种就太多了没必要一一举例子，这类需求 AI 最多能搜到些技术 PR 文，离实现方案还差得远

aloxaf

7h 20m ago

我觉得给 AI 开放搜索能力没问题，「触类旁通」也是一种很重要的能力，大学时接触了 CTF ，感觉这个比赛就非常有意思——它不限制你搜索，甚至有些题目还鼓励你去搜索（比如把 flag 藏在搜索快照里）。
但面对同样的问题，有的人能迅速提炼出重点然后搜索到相似问题，有的人搜来搜去却找不到什么有用信息。

这类 benchmark 的主要问题是更新太慢了，拦不住人家搜着搜着就搜到答案了……

txydhr

7h 15m ago

看上去回帖里 70%的人根本不知道 AI 是什么就在跟帖