分享一下体验,顺便看看大伙是不是同感,或者是我 hold it wrong 。
我一开始是 Claude Pro ,不过去年开始转成 Max 5x 。这周突发奇想试用一下 ChatGPT ,套餐选了个便宜的 Plus 。
先说网页界面,尝试了一些分析/变分/概率模型/计算数学问题,看看 5.2 Thinking 模型是不是对符号操作比较敏锐。尝试从一些少见的角度推导一些常见的结论,看看模型是不是会诚实地按我意图执行,还是甩给我“就是这样定义的”。
总体体验一般,相比 Claude ,符号使用方面有点。。。随意。这是对我熟悉的话题你可以随便来,我也知道你什么意思。要是我不熟的话题就让人要多打字做核实。而且在话题陈述方面也有点随意,这么说吧:有些时候 ChatGPT 像是考场上的学生,不知道一道题怎么做,于是把大概方向上的文本都往卷子上写,期待批卷人从里面挑出来有用的给点分。Claude 有时也有这种问题,但是口气弱一点。
顺便一提 ChatGPT 网页渲染 latex 巨卡。
然后说 Codex ,gpt-5.3-codex. 代码是计算数学的东西,FEM 模拟,不长,7000 多行,包括测试和一个 3d viewer 。 先给那个 3d viewer 加一个简单的功能。这种直来直去的功能还行。但是交互方面感觉更偏 vibe coding ,不像 Claude 自己主动 plan mode 然后还主动问问题。我比较喜欢 agent 跟我交互,写文件之前让我看 diff ,而不是几个函数的 diff 一次性拍过来。token 消耗还行,没感觉特别大差别。但是 codex 你小 bug 有点多啊,人家 Claude 可是能一次完工还能照顾到我没说到的地方啊。总体来说 codex 得手把手教的多一些。
然后试试给求解器加个小扩展功能。其中一个导数可以直接算解析解的,codex 你给我上 finite differencing (收敛性差距蛮大的),人家 Claude 看我其他代码都是用解析导数所以也老老实实算解析导数。哼。
才刚刚用一天,可能有些地方还需要磨合,Claude 那边的习惯也不能直接照搬。还要多一些时间去挖掘一些 ChatGPT 自己独特的优势和使用方法。不过先写这些吧。
1
maolon 19 小时 9 分钟前 网页的这些任务你得用 pro 来搞,或者至少用 codex cli 提供的 5.2 high/xhigh(或者等他出 5.3), 网页的 thinking 感觉最近砍了不少能力。
5.3 codex 是纯粹的 working horse ,也就是说他最适合的是定义清晰的任务然后执行。另外 gpt 现在和 claude 走向不同的路数了,claude 是 pair coding 和 copilot, gpt 是自主工作 agent ,正确用法我觉得应该是给他设置一个目标,然后放着让他自己跑(目标设置得当他可以连续工作几天,以及是的,如果要用 gpt 系列就做好不看代码只看结果的准备,另外 gpt 比 claude 的优势在于在大代码库里他比较耐心会仔细查看所有的代码才开写而不像 claude 急冲冲的就开搞,在你这个应用场景下 claude 是优于 gpt 的)。 |
2
neteroster 18 小时 13 分钟前 via Android 数学相关建议 5.2-xhigh ,5.3-codex 更加工程一点。然后推理至少都得开到 high 及以上,这种情况下几乎都会比 Claude 考虑全面,特别是长程任务。5.2-xhigh 在任务明确的情况下能工作超过 24h 做出完整的交付
Claude Opus 4.6 之前其实数学是相当糟糕的,我甚至不敢用它写一些难点的实验代码,4.6 好不少,基本能对标 5.2 才放心点 |
3
Allonsy 17 小时 23 分钟前
claude 的数学一直非常糟糕. 使用 gpt 系的数学最佳实践是从你的输入到输出全部严格使用 latex 语法. 我三年用下来已经成为人肉 latex 机器了.
|
4
billzhuang 15 小时 56 分钟前 via iPhone
我更多用来做 code review ,opus 4.6 比 5.3-codex 要覆盖更多
|
5
EastLord 15 小时 50 分钟前
opus 4.6 出来之后,Max 5x 还够用吗
|
6
typing OP 看起来我用的是 default ( medium )。让我接下来试试 xhigh
|
8
quzard 14 小时 20 分钟前 via iPhone
这个场景建议用 5.2-xhigh
|