V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
astrophys
V2EX  ›  计算机

想组一个几千核的超算,预算小几百万,求问有什么靠谱且性价比高的方案吗?

  •  
  •   astrophys · 2022-12-01 20:38:45 +08:00 · 2366 次点击
    这是一个创建于 734 天前的主题,其中的信息可能已经有所发展或是发生改变。

    主要用 MPI 做高性能并行计算。地点在国内。谢谢!

    25 条回复    2022-12-05 03:03:12 +08:00
    march1993
        1
    march1993  
       2022-12-01 20:44:00 +08:00   ❤️ 1
    不懂,随便说说:感觉十几台 EPYC 在核心数目上就能持平了,剩下的就是组网,现在的 SC 应该还是靠的 InfiniBand ?比如 100G 的交换?
    astrophys
        2
    astrophys  
    OP
       2022-12-01 20:44:54 +08:00
    @march1993 嗯嗯,应该还是用 InfiniBand 。
    v2e0xAdmin2
        3
    v2e0xAdmin2  
       2022-12-01 20:45:07 +08:00
    能力有限,无法回答
    march1993
        4
    march1993  
       2022-12-01 20:47:09 +08:00
    @astrophys 所以还是得深化你的需求,是面向某一种计算任务,还是说给学校或者科研机构做方案。。
    eason1874
        5
    eason1874  
       2022-12-01 20:49:10 +08:00   ❤️ 1
    建议联系厂商要方案,联想、浪潮、曙光、HPE 、DELL
    astrophys
        6
    astrophys  
    OP
       2022-12-01 20:50:33 +08:00
    @march1993 嗯嗯就是科研机构😂
    astrophys
        7
    astrophys  
    OP
       2022-12-01 20:51:58 +08:00
    @eason1874 大厂确实可以,但也有小厂说可以有水货型号价格比较便宜,不知道是不是靠谱……
    march1993
        8
    march1993  
       2022-12-01 20:53:19 +08:00   ❤️ 1
    @astrophys 那肯定是哪个供应商返点多找哪个了。。这题是个商务问题不是技术问题。。哈哈
    eason1874
        9
    eason1874  
       2022-12-01 21:05:37 +08:00
    @astrophys 我不熟悉的东西,买大厂的我都怕有坑,你敢买小厂的。你是有胆子的 😂
    lithiumii
        10
    lithiumii  
       2022-12-01 21:18:29 +08:00   ❤️ 3
    TY233
        11
    TY233  
       2022-12-01 21:47:01 +08:00 via iPhone
    感觉现在用 mpi 的越来越少了,厂商都推荐用自己的的解决方案
    Cu635
        12
    Cu635  
       2022-12-01 22:37:56 +08:00
    这个问题不是应该找厂商么……
    em70
        13
    em70  
       2022-12-01 22:52:36 +08:00   ❤️ 1
    做好了开源一下啊
    dguge
        14
    dguge  
       2022-12-02 00:27:11 +08:00
    看来是做天体物理 mhd 的吧
    litguy
        15
    litguy  
       2022-12-02 08:34:16 +08:00   ❤️ 1
    公司刚刚接了某 985 的单子,5KW
    还是找个靠谱的供应商吧,国内至少 联想,曙光,华为,浪潮这类吧
    astrophys
        16
    astrophys  
    OP
       2022-12-02 10:18:24 +08:00
    @TY233 自己的解决方案是指?是不是不太有通用性啊,比如代码就是用 mpi 写的。。。
    astrophys
        17
    astrophys  
    OP
       2022-12-02 10:19:24 +08:00
    @Cu635 先投石问路一下,避避可能的坑
    astrophys
        18
    astrophys  
    OP
       2022-12-02 10:20:13 +08:00
    @em70 硬件开源是指什么,做好了让大家免费用嘛😂
    astrophys
        19
    astrophys  
    OP
       2022-12-02 10:20:56 +08:00
    @dguge 对,主要是这个
    astrophys
        20
    astrophys  
    OP
       2022-12-02 10:22:27 +08:00
    @litguy 我这就是一个组的量级,不到学校那种级别😂
    Cu635
        21
    Cu635  
       2022-12-02 14:34:10 +08:00   ❤️ 1
    @astrophys #18
    现在社区里面叫的“硬件开源”基本上是电路设计图和机械设计图纸的开放,有的时候 PCB 布局也开放,然后就是技术文档成体系,紧密联系硬件的软件代码也开源。当然,由于产品线是“硬”的,往往连带着厂商定制的 linux 发行版一起叫“硬件开源”。
    像树莓派、arduino 这类的都是。

    上面 @em70 应该是借鉴了这个概念,意思是让 lz 把硬件配置、软件搭配等等这些说一下。它跟“免费”是两个独立事件。
    em70
        22
    em70  
       2022-12-03 02:40:06 +08:00   ❤️ 1
    @astrophys #当然是方案开源,超算研发就是要做一套系统来协调硬件形成合力,硬件都买得到
    astrophys
        23
    astrophys  
    OP
       2022-12-03 15:38:45 +08:00
    @em70 谢谢!请问问有没有什么靠谱的开源方案呢?这个方面是知识小白😂
    TY233
        24
    TY233  
       2022-12-05 03:01:34 +08:00 via iPhone   ❤️ 1
    @TY233 比如 nccl ,nvidia 开发的 N 卡专用的通信后端肯定比 mpi 这种通用的性能强。pytorch 切换后端几行代码搞定,其他的框架我就不了解了
    TY233
        25
    TY233  
       2022-12-05 03:03:12 +08:00 via iPhone
    @astrophys 很多学校都用 slurm ,开源的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5772 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 01:40 · PVG 09:40 · LAX 17:40 · JFK 20:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.