V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
gouchaoer2
V2EX  ›  程序员

公司有一批服务器装了 AMD 的 EPYC 7313 或者 EPYC 7513,但是大部分服务器跑我们的业务时频率就会上不去

  •  
  •   gouchaoer2 · 2022-11-07 14:13:47 +08:00 · 2388 次点击
    这是一个创建于 777 天前的主题,其中的信息可能已经有所发展或是发生改变。
    只有一台服务器是正常的(全程能达到 3600MHz 的 boost 频率),其它大部分服务器跑任务。这个任务就是 gpu 解压 h264 视频,然后传给 cpu ,每秒大概 3.6G/s 的速度。这个时候 cpupower monitor 查看频率在 1500MHz 到 2500MHz 左右,到不了 3000MHz 的满频率(更不要说 3600MHz 的 boost 频率了)。当这个任务停了,再用 stress 指令就能压满 cpu 了。

    已经排除的原因:
    1 、已经 NUMA 、cTDP 、boost 、BIOS 的节能
    2 、AVX2 指令已经测试过,能压满频率,并没有降低频率
    3 、接服务器 BMC 带外看 cpu 的温度是正常的,但是电压我看不懂,是不是电压原因,如下:

    12 条回复    2022-11-09 22:09:59 +08:00
    gouchaoer2
        1
    gouchaoer2  
    OP
       2022-11-07 14:27:38 +08:00
    其实这个问题还是之前的那个问题: https://v2ex.com/t/884141#reply28
    我以为解决了,其实根本没有解决
    echo1937
        2
    echo1937  
       2022-11-07 14:34:14 +08:00
    还是 ffmpeg 的问题?
    litguy
        3
    litguy  
       2022-11-07 15:09:27 +08:00
    @gouchaoer2 我看到一个回答,你试试和你们系统匹配不 ?
    litguy
        4
    litguy  
       2022-11-07 15:09:35 +08:00
    BIOS/Platform Configuration
    -> Power and Performance Options
    -> Power Regulator
    [*] OS Control Mode
    litguy
        5
    litguy  
       2022-11-07 15:14:12 +08:00
    还可以试试这个命令 cpupower frequency-set -g performance
    ZRS
        6
    ZRS  
       2022-11-07 15:15:37 +08:00 via iPhone
    看看 TDP 是不是跑满了,不是所有的任务负载都反映在主频上
    gouchaoer2
        7
    gouchaoer2  
    OP
       2022-11-07 18:12:21 +08:00
    @ZRS 怎么看 TDP 跑满没有呢?
    gouchaoer2
        8
    gouchaoer2  
    OP
       2022-11-07 18:12:59 +08:00
    cpupower -g performance 这个已经试过了,还有 Power Regulator 这个 BIOS 里没有
    secondwtq
        9
    secondwtq  
       2022-11-07 21:27:22 +08:00
    turbostat 试下,我这 Intel 是可以显示功耗的
    (注意对于 Intel CPU ,这里显示的应该是 RAPL 提供的一个估计值,是通过一个数学模型算出来的,并不是直接测量功耗)
    gouchaoer2
        10
    gouchaoer2  
    OP
       2022-11-08 09:46:53 +08:00
    @secondwtq
    @ZRS
    @litguy
    这次真的结帖定了,定位到问题了,就是 cTDP 不够,虽然 AMD 官方标称 cTDP 是 180W ,但是可能是我们采购的主板供电有问题,必须把 cTDP 调大几十 W 才行
    haikouwang
        11
    haikouwang  
       2022-11-09 11:04:05 +08:00 via Android
    amd 的 u 出名的大家找 bug
    gouchaoer2
        12
    gouchaoer2  
    OP
       2022-11-09 22:09:59 +08:00
    @haikouwang 这不是 AMD 的原因,是机箱主板的原因,我们这批服务器主板有某知名大厂,有某小厂,我们的采购干了 3 件蠢事:1 、把 8 条小容量内存换成 4 跟大容量内存,导致只能用 4 通道速度减半 2 、把有 2 个 NVDEC 的 quadro 显卡换成了“更强劲”某显卡(结果只有 1 个 NVDEC )导致解码性能不够,结果需要 2 张 3 、就是搬来服务器主板大厂的没问题,结果这个小厂的除了问题,我 debug 了好久好久才找到原因

    不过经过这件事,我对服务器性能调优也有了一个更高的认识吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1069 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 19:15 · PVG 03:15 · LAX 11:15 · JFK 14:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.