• 请不要在回答技术问题时复制粘贴 AI 生成的内容
fragmede
V2EX  ›  程序员

DeepSeek V4 Pro:处于前沿的首个中文模型

  •  
  •   fragmede · 4 days ago · 5678 views

    https://foodtruckbench.com/blog/deepseek-v4-pro

    5 次运行全部成功。中位数投资回报率( ROI )高达 +1,257%。中位数净资产达 $27,142 。 首个跻身 Opus 4.6 、GPT-5.2 和 Grok 4.3 (最新版)同等 ROI 梯队的中国模型; 在所有受测的高级模型中,其运行表现最为出色且稳定性最高。

    18 replies    2026-05-11 09:46:32 +08:00
    LunarConcerto
        1
    LunarConcerto  
       4 days ago
    没看懂这个测试基准是啥
    xmsl
        2
    xmsl  
       4 days ago   ❤️ 2
    只要定语足够多,那就是第一!
    mingtdlb
        3
    mingtdlb  
       4 days ago   ❤️ 1
    所以这么看,deepseekv4Pro 还不如 GPT5.5Instant
    TimeNewRome
        4
    TimeNewRome  
       4 days ago
    不是很明白,这个是回测还是实盘?如果是回测就没什么意义,实盘的话,我将 all in 。
    FantaMole
        5
    FantaMole  
       4 days ago
    看完了,原来是一套餐车模拟 benchmark ,这个测评内容还蛮有意思的,但我觉得论坛里面大多数人更需要量化模拟 benchmark

    不过我觉得这套东西改一改之后可以推销给勇哥餐饮创业说,我觉得来连线的绝大多数都需要这么一套东西来帮他们整理一下脑子里的开店思路
    fuchish112
        6
    fuchish112  
       4 days ago
    不看,反正官方说了不如 opus4.6 ,我只用来辅助或者交叉验证,写确定的,不复杂的代码用它也足够了
    RuralHunter
        7
    RuralHunter  
       4 days ago
    翻译错了,人家说的是第一个中国顶尖模型,不是中文模型
    jetsung
        8
    jetsung  
       4 days ago
    标题的 Chinese 并不是指“中文”吧?我觉得应该指“中国模型”

    直接在 Grok 让它总结:“总结一下这篇文章: https://foodtruckbench.com/blog/deepseek-v4-pro”
    它说的是“DeepSeek V4 Pro 是首款进入前沿水平的 中国模型( Chinese model ,由中国团队开发)。”
    它甚至还拿来跟它家的 Grok 4.3 对比,得出的结论“两者中位净资产和 ROI 非常接近,但 DeepSeek V4 Pro 明显更稳”。笑死。
    shintendo
        9
    shintendo  
       4 days ago   ❤️ 4
    @xmsl 不是,这不就一个定语吗
    Nzelites
        10
    Nzelites  
       4 days ago   ❤️ 1
    @xmsl 一个也多吗?还是我们中文理解不一样你看除了不止一个
    TtNnTt
        11
    TtNnTt  
       4 days ago
    v4 难产多久了才发,就第一了
    sampeng
        12
    sampeng  
       4 days ago via iPhone
    这没意义…要把时间拉长到一年实盘,一进一个不吭声
    Wuuuu
        13
    Wuuuu  
       4 days ago
    没看错的话,中文模型里面 GLM 5.1 KIMI 2.6 ,甚至 Minimax 2.7 这些新一代的都没测试过啊,Claude Opus 4.7 也没有
    jimrok
        14
    jimrok  
       4 days ago
    这测试预览版,6 月会发 4.1 的升级版。
    Moonkin
        15
    Moonkin  
       3 days ago via Android
    便宜就是第一
    lixuda
        16
    lixuda  
       3 days ago
    回测没有任何意义
    pagxir
        17
    pagxir  
       3 days ago via Android
    有没有可能模型已经带了回测的数据了。不跑实盘完全没有任何可比性
    xmsl
        18
    xmsl  
       2 days ago
    @shintendo 我有明确表明他有很多个了吗?
    这是充分非必要条件
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1055 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 78ms · UTC 18:42 · PVG 02:42 · LAX 11:42 · JFK 14:42
    ♥ Do have faith in what you're doing.