V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
reaCodes
V2EX  ›  程序员

装一台深度学习主机,双 3090 显卡,请问配置怎么选择?

  •  
  •   reaCodes ·
    zhatlas · 2020-11-04 10:52:04 +08:00 · 13226 次点击
    这是一个创建于 1240 天前的主题,其中的信息可能已经有所发展或是发生改变。
    主要是主板怎么选择,还有选什么样的 CPU 能让这两张 3090 物尽其用,电源起码 1100W 吧
    82 条回复    2021-11-12 20:12:03 +08:00
    wmwmajie
        1
    wmwmajie  
       2020-11-04 11:13:27 +08:00
    同问!!
    FantaMole
        2
    FantaMole  
       2020-11-04 11:19:26 +08:00
    先等厂商把炸机问题解决了再决定电源选多少,选什么牌子吧
    saintube
        3
    saintube  
       2020-11-04 11:20:57 +08:00   ❤️ 1
    3090 最近出现了几波爆炸事故,甚至涉及到海盗船 ax1600i 这种电源,建议观望
    mhycy
        4
    mhycy  
       2020-11-04 11:24:48 +08:00   ❤️ 1
    3090 据说峰值达到了 900W,1100W 电源不太够
    dadachen1997
        5
    dadachen1997  
       2020-11-04 11:27:52 +08:00   ❤️ 1
    楼主怎么选的呢?我们实验室要装一台 4 路 3090,愁大我了
    w99wjacky
        6
    w99wjacky  
       2020-11-04 11:29:30 +08:00
    起码 1100W.
    个人推荐到 1300,主要是怕你买的卡放宽了功率墙,瞬时峰值功率 1100 顶不住,伤卡伤电源
    (350 - 500) * 2 + cpu ( 150 ) + 200 (外设等)
    lrh3321
        7
    lrh3321  
       2020-11-04 11:29:48 +08:00
    据说有 1600W 的 EVGA 都被 3090 带走了。建议先观望
    w99wjacky
        8
    w99wjacky  
       2020-11-04 11:30:17 +08:00
    保险期间,到 1600w,毕竟电源比显卡便宜多了。。
    emeab
        9
    emeab  
       2020-11-04 11:31:28 +08:00
    如果能受得了 amd 就选 amd Threadripper PRO 3995WX;
    否则选 i9-10980XE
    w99wjacky
        10
    w99wjacky  
       2020-11-04 11:32:50 +08:00
    保险起见到 1600w,毕竟电源比显卡便宜多了
    Raynard
        11
    Raynard  
       2020-11-04 11:34:23 +08:00
    炸鸡好像振华电源多?

    不过先别买是真的

    主板 m12f,cpu10900k,电源海盗船 ax1600i
    emeab
        12
    emeab  
       2020-11-04 11:36:33 +08:00
    其实有 2000w 电源的
    Raynard
        13
    Raynard  
       2020-11-04 11:38:56 +08:00
    直接上 x299 吧( doge
    Raynard
        14
    Raynard  
       2020-11-04 11:44:33 +08:00
    @dadachen1997 你这个需求给你推荐个 tb 店:骋罡数码专营店
    deorth
        15
    deorth  
       2020-11-04 12:40:49 +08:00
    单卡瞬时功耗 940W,BOOM
    reaCodes
        16
    reaCodes  
    OP
       2020-11-04 12:49:07 +08:00
    @deorth 峰值有这么高吗,我查了一下,TDP 350,峰值到五六百都有可能,九百多这也太夸张了吧
    reaCodes
        17
    reaCodes  
    OP
       2020-11-04 12:49:27 +08:00
    @deorth 还打算组 4 卡,这得跳闸不可
    reaCodes
        18
    reaCodes  
    OP
       2020-11-04 12:50:55 +08:00
    @dadachen1997 分析了一下,4 卡行不通,选不到民用级别的主板和电源
    deorth
        19
    deorth  
       2020-11-04 12:56:49 +08:00
    ungrown
        20
    ungrown  
       2020-11-04 13:02:08 +08:00
    @mhycy #4 这搞个二次循环岂不是可以室内供暖了?
    maichael
        21
    maichael  
       2020-11-04 13:08:15 +08:00
    双路 7F52 (#滑稽
    Umenezumi
        22
    Umenezumi  
       2020-11-04 13:35:06 +08:00
    你在观望下,现在炸了很多,不清楚是 bios 调教问题还是电源缺陷
    w99wjacky
        23
    w99wjacky  
       2020-11-04 13:44:18 +08:00
    @dadachen1997
    去看服务器机箱吧
    关键词:冗余电源
    w99wjacky
        24
    w99wjacky  
       2020-11-04 13:48:20 +08:00
    @dadachen1997
    追风者 719 这个可以双电源
    dadachen1997
        25
    dadachen1997  
       2020-11-04 13:50:02 +08:00
    @w99wjacky 目前打算上的服务器 cpu 和 ecc 内存,电源选了 2000W 的,但是感觉压不住,4 个 turbo 3090 真不知道怎么搞,服务器那种噪音挺大的吧,机架式的那种吗?
    w99wjacky
        26
    w99wjacky  
       2020-11-04 13:51:16 +08:00
    @dadachen1997
    追风者 719
    dadachen1997
        28
    dadachen1997  
       2020-11-04 13:53:42 +08:00
    @w99wjacky 我看看,多谢老哥
    Porphet
        29
    Porphet  
       2020-11-04 13:54:00 +08:00   ❤️ 1
    一个星期之前刚用上:
    四路技嘉 3090 Turbo 24G
    192G 内存
    2000w 1+1 冗余电源
    2 路 CPU 就是
    Porphet
        30
    Porphet  
       2020-11-04 13:55:20 +08:00
    一个星期之前刚用上:
    四路技嘉 3090 Turbo 24G
    192G 内存
    2000w 1+1 冗余电源
    2 路 CPU 就是普通的 E5

    超微的塔式,总价不到 10w

    ![image.png]( https://i.loli.net/2020/11/04/aHr2WfT8qcKZdkA.png)
    secsilm
        31
    secsilm  
       2020-11-04 14:03:49 +08:00
    @Porphet 嚯,这是跑的啥模型?
    Porphet
        32
    Porphet  
       2020-11-04 14:06:52 +08:00
    @secsilm 基于 BERT 的实验,很占显存
    Kupanda82
        33
    Kupanda82  
       2020-11-04 14:07:42 +08:00
    电源上双电源吧,单 1100w 不够用。

    其实可以等等,3090 没那么强
    secsilm
        34
    secsilm  
       2020-11-04 14:12:21 +08:00
    @Porphet 你这 bert 够大啊,我之前跑的分类仅仅用了一块 12 G 的卡,不过我用的 base 。
    fatelight
        35
    fatelight  
       2020-11-04 14:14:17 +08:00
    振华 2000w
    fatelight
        36
    fatelight  
       2020-11-04 14:15:13 +08:00
    振华( SUPER FLOWER ) 额定 2000W LEADEX P 2000 电源 ( 80PLUS 白金认证 /全模组 /智能免识别插拔 /十年质保)
    ThatYear
        37
    ThatYear  
       2020-11-04 14:22:20 +08:00
    过来学习,表示还没装过双显卡
    sl0000
        38
    sl0000  
       2020-11-04 14:23:08 +08:00
    supermicro 工作站
    northisland
        39
    northisland  
       2020-11-04 14:29:51 +08:00
    看起来是 350w,保险起见搞 1500w 不过分,双路电源也不过分。

    阔佬你打算搞箱式主机,还是刀片主机
    Porphet
        40
    Porphet  
       2020-11-04 14:30:39 +08:00
    @secsilm 拿来做关系抽取的,要写论文的嘛,哈哈哈。就这样 batch_size 只能设 1,DDP 用起来四卡就占满了
    northisland
        41
    northisland  
       2020-11-04 14:31:29 +08:00
    我只晓得,intel 家 cpu 貌似走到了瓶颈,明年的 cpu 还是 14nm 制程。。。

    选个农企 cpu 应该更强大。
    northisland
        42
    northisland  
       2020-11-04 14:37:01 +08:00
    要是做图像,这显卡,一个 iter,不得吃进去 256 张图,这个 batchsize,至少 48 核 cpu 。
    wangzhangup
        43
    wangzhangup  
       2020-11-04 15:01:13 +08:00
    @reaCodes 4 卡不太可行,3090 占 3 个宽度。工作站主板,2080ti 可以放 4 张,3090 只能插两张。
    reaCodes
        44
    reaCodes  
    OP
       2020-11-04 15:54:39 +08:00
    @dadachen1997 加我微信我们交流一下,WX 15651212115
    jeeyong
        45
    jeeyong  
       2020-11-04 15:59:50 +08:00
    @dadachen1997 你这个怕是要独立电源给显卡供电
    CallMeReznov
        46
    CallMeReznov  
       2020-11-04 16:04:05 +08:00
    8 路 2080TI 在机房瑟瑟发抖
    nightwitch
        47
    nightwitch  
       2020-11-04 16:09:36 +08:00
    这种一般找供应商,你在消费者市场是比较难找到合适的机箱和主板的。 可以咨询下 Dell,惠普,浪潮,联想之类的销售,他们塔式和刀片的方案都有。
    qiaobeier
        48
    qiaobeier  
       2020-11-04 16:20:51 +08:00
    1300W 的主机。。。 开了这玩意不需要开暖气了吧。
    dadachen1997
        49
    dadachen1997  
       2020-11-04 16:21:50 +08:00
    @wangzhangup #43 turbo 卡只占两个 slot
    zirconium
        50
    zirconium  
       2020-11-04 16:42:42 +08:00 via Android
    @Porphet 老哥在哪里配的
    murmur
        51
    murmur  
       2020-11-04 16:53:30 +08:00
    现在单一电源最猛的可以买到 1600w,供电不是问题,剩下看你的主板和 u 了,hedt 的板子应该都有 6 个 pci 插槽
    DesperadoJ
        52
    DesperadoJ  
       2020-11-04 17:00:48 +08:00
    RTX3090 的峰值功耗可以上到 940W,建议用双电源
    DesperadoJ
        53
    DesperadoJ  
       2020-11-04 17:01:33 +08:00
    Porphet
        54
    Porphet  
       2020-11-04 17:03:56 +08:00
    @zirconium #50 在 jd 上找了一家超微的代理,让他给出了个配置单。然后找我们自己的供应商给买的设备加上安装和调试。
    配置单我还有,但是供应商说这个 cpu 和主板马上要停产了,再买就要买新的了,超微的塔式四路 GPU 服务器好像就那一款
    qoras
        55
    qoras  
       2020-11-04 17:10:59 +08:00
    3090 背部显存温度非常高, 注意降温及小心烫伤
    zzh1224
        56
    zzh1224  
       2020-11-04 17:14:22 +08:00
    amd 不香吗
    nmecury
        57
    nmecury  
       2020-11-04 17:16:55 +08:00
    搞个超微准系统吧,别自己折腾了
    wangzhangup
        58
    wangzhangup  
       2020-11-04 17:29:40 +08:00
    如何配置一台适用于深度学习的工作站?知乎的下面有讲的很清楚。
    w1573007
        59
    w1573007  
       2020-11-04 17:39:23 +08:00 via Android
    兄弟,我和你研究的差不多,但多路显卡显存可以共享么,先谢大佬指路了。我没找到相关资料
    philobar
        60
    philobar  
       2020-11-04 20:07:22 +08:00
    感觉需要折腾双电源
    zhady009
        61
    zhady009  
       2020-11-04 20:39:53 +08:00
    现在不建议上 3090 各种 boom 的消息
    dlsflh
        62
    dlsflh  
       2020-11-04 22:37:14 +08:00 via Android
    不可以外接电源单独给显卡供电吗?
    daliandefei
        63
    daliandefei  
       2020-11-04 22:49:53 +08:00
    啊哈哈 来闲鱼搜一下我的顶配黑苹果 ,macpro 复刻机箱 小超到 1.22v 全核 4.7 mesh 33, 比 MACPRO 2019 顶配强一些~ 还有配套压缩机出 如果
    no1xsyzy
        64
    no1xsyzy  
       2020-11-04 23:53:54 +08:00
    @dlsflh 可以是可以,大部分塔式机箱没有双电源的位置,要么直接测试平台裸跑,要么特殊机箱。
    SorryChen
        65
    SorryChen  
       2020-11-05 00:38:42 +08:00 via iPhone
    @zzh1224 做很多深度学习用不了 amd,cuda 一统天下
    tianshilei1992
        66
    tianshilei1992  
       2020-11-05 02:22:26 +08:00
    要选 PCI-E Lane 大于 32+4 的 CPU
    diggerdu
        67
    diggerdu  
       2020-11-05 03:16:59 +08:00 via iPhone
    @w1573007 model parallel
    devlnt
        68
    devlnt  
       2020-11-05 04:27:43 +08:00
    担心电源的话,可以考虑工作站这种的,一般有俩电源,可以挑俩 2000W 这种的
    mostkia
        69
    mostkia  
       2020-11-05 08:14:13 +08:00
    老黄真就是造核弹的啊,带 9 的卡碰不得,想当年的 GTX690 也是个核弹[狗头]
    337136897
        70
    337136897  
       2020-11-05 09:36:06 +08:00   ❤️ 2
    楼上的全是搞深度学习的科学家吗...
    MeteorCat
        71
    MeteorCat  
       2020-11-05 09:39:34 +08:00 via Android
    单个 3090 的功耗 1100w 压不住,建议等等避免上烈士墙
    isler
        72
    isler  
       2020-11-06 16:18:47 +08:00
    @Porphet 你们的具体配置是怎么样呢?用的塔式?
    Porphet
        73
    Porphet  
       2020-11-06 17:08:31 +08:00
    @isler
    Supermicro SYS-7048GR-TR
    E5-2680V4 * 2
    三星 32G RECC 内存 * 6
    技嘉 RTX 3090 TURBO * 4
    硬盘机械加固态

    机箱和 CPU 应该是马上停产,供应商装好机器才跟我说,升级型号应该是 SYS-7049GP-TRT,CPU 也要换
    虽说是塔式,我们还买了导轨,放在那种恒温机房里
    Porphet
        74
    Porphet  
       2020-11-06 17:19:24 +08:00
    @w1573007 #59
    关于显存共享我差不多搞明白了,只针对深度学习:
    1. 显存不可能在底层叠加,也就是说永远是四个单独的 24G 显存
    2. 我认为的显存叠加只是增加了 batch_size 的大小(已实现),或者可以把模型分半一块卡加载一部分模型。
    3. 第二条所述的功能都需要在代码层面实现,底层上是通过 PCIe 来传输梯度
    4. NvLink 的作用就是加速第三条中梯度传输的速度,避免数据通过 CPU 传输,以实现类似一整块 4*24G 显卡的效果

    这些是我踩坑之后的理解
    w1573007
        75
    w1573007  
       2020-11-06 17:55:00 +08:00 via Android
    谢谢啦,太感谢了👍👍👍
    isler
        76
    isler  
       2020-11-07 12:45:22 +08:00
    @Porphet
    果然技嘉 turbo 是唯一选择。。

    不过你们是不是被坑了啊。。。我的 SYS-7049GP-TRT+4*2080Ti 还是 18 年买的呢,都用了两年了。。。CPU 用的 6128
    isler
        77
    isler  
       2020-11-07 12:52:58 +08:00
    @Porphet

    另外不知道你们用了几台,我感觉几台单独用,利用率不行,今年打算做集群,不过方案还没选好
    Porphet
        78
    Porphet  
       2020-11-07 14:54:29 +08:00
    @isler
    反正不吃 CPU,坑就坑了,现在我自己用这一台,也没有多余的。
    集群我反正是在机房里看见了四台 DGX A100 外加单独的万兆路由,酸死我了
    fchypzero
        79
    fchypzero  
       2020-11-07 18:06:39 +08:00
    @Porphet 有钱啊,DGX A100 一台大几十万
    isler
        80
    isler  
       2020-11-08 01:24:39 +08:00
    @Porphet
    DGX A100 买不起,不过万兆网卡和交换机就好说了,Intel 的万兆寨卡也没几百,没有现成的万兆交换机,直接上全 sfp+的也不贵,接几个服务器买几个模块就是了
    chenjunqiang
        81
    chenjunqiang  
       2021-11-06 15:37:02 +08:00
    @Porphet 你好,我准备上你这个方案,你这个是放在恒温机房托管的吗?还是放在公司的?我感觉这个玩意散热会不会有问题,不敢直接上
    Porphet
        82
    Porphet  
       2021-11-12 20:12:03 +08:00
    @chenjunqiang 我们放在恒温机房,放在公司应该也可以。就是噪音大,显卡 io 板上装了两个暴力服务器风扇,直接往外抽风,反正不用插 hdmi 。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2325 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 00:01 · PVG 08:01 · LAX 17:01 · JFK 20:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.