V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
user667788
V2EX  ›  服务器

搞一台服务器,安装数据库 用来做数据分析,放家里,要多少钱

  •  
  •   user667788 · 2023-10-24 15:57:43 +08:00 · 940 次点击
    这是一个创建于 403 天前的主题,其中的信息可能已经有所发展或是发生改变。

    感谢大家


    需求描述:

    做数据分析用的

    机器想放在家里(这样成本应该比购买云数据库便宜吧?), 噪音不能太大, 体积没多大要求

    具体用途

    定时(比如每分钟一次) 从远程获取数据,将数据清洗后, 存入数据库里

    后续我会在自己的个人电脑上,通过 复杂的 sql 来访问 数据库里的数据, 生成各种报表

    数据量估计有点大,初步估计 前期 可能几个 T 就够了, 后期硬盘可能要 20+T ,

    有时候一个 sql 查询,可能会查询好几个表,一次返回的结果可能有几万条记录,甚至更多一些

    除了跑数据库,还可能跑一个 web ,展示报表


    目前担忧的地方

    0 、 需要购置哪些硬件,成本要多少

    1 、 初期投入会不会太大

    2 、 后续 硬件 是否 方便 扩展 (就怕如果要升级、加大硬盘, 需要重新购买很多东西,怕不兼容)

    3 、 假设其中一个硬盘坏了,为了让整个系统恢复,是不是需要很大的代价(比如 是不是得重新抓所有数据)

    4 、 其他潜在的麻烦 和风险


    请各位前辈指点一二, 谢谢


    再次感谢大家

    9 条回复    2023-10-24 23:09:17 +08:00
    sadfQED2
        1
    sadfQED2  
       2023-10-24 16:08:56 +08:00 via Android
    emm ,你得说下你的需求呀,什么数据库,多少查询,核心查询逻辑啥样的?

    没有需求的话,你这个数据量,我目测你是分析场景,推荐 starrocks 数据量,我们目前线上目前跟你数据量差不多,我们是 4 台 be 2 台 fe 的集群,硬件配置都是 96 核,内存多少不知道,6 台目测百万级别
    user667788
        2
    user667788  
    OP
       2023-10-24 16:14:19 +08:00
    @sadfQED2 谢谢, 数据库初步是 postgresql , 就我自己一个人用,

    # 查询次数

    初期 可能 一天就查询几次, 后面有些查询会让脚本来做,可能 一天几十次,几百次查询, 不会太密集


    # 查询的核心逻辑

    从多个表 拿到数据, 进行各种 join, 或者连接, 得到数据, 方便生成报表, 我猜测这个可能比较费内存
    WashFreshFresh
        3
    WashFreshFresh  
       2023-10-24 16:45:50 +08:00
    啥数据要几 t ,你这完成清洗入库后不能把远程获取的数据删了吗?
    user667788
        4
    user667788  
    OP
       2023-10-24 16:55:48 +08:00
    @WashFreshFresh

    一些商业的 大数据, 清洗完成后的数据,如果全部存储起来,20T 估计都装不下, 前期我就打算只存 最新 x 天的数据,比较节省硬盘
    vopsoft
        5
    vopsoft  
       2023-10-24 17:36:27 +08:00
    我们这儿到是有闲置机柜位置 2u 1-2k/年 以接私活的方式上架 或者只托管硬盘
    sadfQED2
        6
    sadfQED2  
       2023-10-24 18:57:42 +08:00
    @user667788 #2 pg 的话不吃硬件性能,而且你这个查询量,基本上只要能跑起来,都没啥问题。涉及 join 的话可能涉及内存操作,具体得看你表和索引设计。

    按你这个需求考虑硬件的话,基本上成本大头就是磁盘,确定有 20T 数据的话,机器上最少要 30T 可用吧,保证高可用,机器使用 RAID1 阵列,需要 60T 硬盘,10T 的硬盘大概 1500 一块,需要 6 块,总计 9000 元。

    CPU 内存的话配个 16 核 64G 差不多了

    再加上电源、机箱、阵列卡,七七八八,1.5 万内应该差不多了。

    以上都是按企业级的方案设计,如果不管稳定性,当垃圾佬的话,那估计两三千就够了
    ihuotui
        7
    ihuotui  
       2023-10-24 22:44:16 +08:00
    个人搞 tidb 就行了,普通 pc
    user667788
        8
    user667788  
    OP
       2023-10-24 23:09:08 +08:00
    @sadfQED2 谢谢指点
    user667788
        9
    user667788  
    OP
       2023-10-24 23:09:17 +08:00
    @ihuotui 谢谢指点
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2700 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 12:15 · PVG 20:15 · LAX 04:15 · JFK 07:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.