V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zealinux
V2EX  ›  程序员

[2021] 大家用什么大数据技术栈?

  •  
  •   zealinux · 72 天前 · 1694 次点击
    这是一个创建于 72 天前的主题,其中的信息可能已经有所发展或是发生改变。

    公司这方面一片空白,我也从没搞过。 但公司要准备这方面的预研。

    是拿来用,而不是搞二次开发。 最好是直接拿开源的组装就行。

    大家怎么选型,有什么推荐的?


    现在只听说了 Hue,Hive,正在学习。 (之前只是用 Python Pandas 等数据分析)

    10 条回复    2021-09-29 17:09:41 +08:00
    zhengsidao
        1
    zhengsidao  
       72 天前
    有自己的集群么,还是用的云服务?
    数据量是多大的呢,做大数据的场景是什么,是需求推动还是纯粹公司想做,达成什么方向 or 目的?
    大数据这一块的内容太多了,抛开业务场景去谈实践基本上扯淡。相关的组件学习、运维和使用成本都很高,如果没有经验也没有数据场景需求推动基本上干不了啥。
    推荐一下阿里巴巴大数据的书籍,<大数据之路> 看完心里有个大概,再根据场景选型对应的组件来调研。

    另外盲猜你的公司很小...
    xujia1998
        2
    xujia1998  
       72 天前
    Flink ClickHouse
    libook
        3
    libook  
       72 天前
    招个大数据架构师来搞,都是组合各种开源组件,但跟业务相关的东西还是得自己写的。
    dayeye2006199
        4
    dayeye2006199  
       72 天前
    我默认楼主需要的是类似数据仓库之流的东西,这方面运维成本很高,小公司自己做没经验的话会很痛苦。建议直接买云厂商的解决方案。例如阿里云的 maxcompute 。比较现代的解决方案一般是存算分离,存储一般用普通的 oss 。

    在这个基本的仓库服务上,建议再酌情选择 数据治理,数据管道等组件。这方面可以开源和购买相结合。
    presto
        5
    presto  
       72 天前
    Flink 、Presto Kudu
    yingsunwl
        6
    yingsunwl  
       72 天前
    HDFS 、Hive 、Spark 、Flink 、Presto 、Kafka 、ClickHouse 、Doris 、Kylin
    zengqz
        7
    zengqz  
       72 天前
    pulsar,很值得使用
    levelworm
        8
    levelworm  
       71 天前 via Android
    Kafka 数据流经过 Spark 计算进 Vertica, 然后 Airflow 定时做 Transform 进数仓。
    zhygkx
        9
    zhygkx  
       71 天前
    大公司基本不用 Hive 了,Hive Metastore 组件还在用。
    离线计算:Spark
    实时计算:Flink
    即席查询:Presto/Trino
    存储:HDFS/OSS
    michaelzhangcn
        10
    michaelzhangcn  
       71 天前
    你要問問公司想要解決什麼問題
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2796 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 11:18 · PVG 19:18 · LAX 03:18 · JFK 06:18
    ♥ Do have faith in what you're doing.