[2021] 大家用什么大数据技术栈？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1601 天前的主题，其中的信息可能已经有所发展或是发生改变。

公司这方面一片空白，我也从没搞过。但公司要准备这方面的预研。

是拿来用，而不是搞二次开发。最好是直接拿开源的组装就行。

大家怎么选型，有什么推荐的？

现在只听说了 Hue，Hive，正在学习。（之前只是用 Python Pandas 等数据分析）

10 条回复 • 2021-09-29 17:09:41 +08:00

zhengsidao

2021 年 9 月 28 日

有自己的集群么，还是用的云服务？
数据量是多大的呢，做大数据的场景是什么，是需求推动还是纯粹公司想做，达成什么方向 or 目的？
大数据这一块的内容太多了，抛开业务场景去谈实践基本上扯淡。相关的组件学习、运维和使用成本都很高，如果没有经验也没有数据场景需求推动基本上干不了啥。
推荐一下阿里巴巴大数据的书籍，<大数据之路> 看完心里有个大概，再根据场景选型对应的组件来调研。

另外盲猜你的公司很小...

xujia1998

2021 年 9 月 28 日

Flink ClickHouse

libook

2021 年 9 月 28 日

招个大数据架构师来搞，都是组合各种开源组件，但跟业务相关的东西还是得自己写的。

dayeye2006199

2021 年 9 月 28 日

我默认楼主需要的是类似数据仓库之流的东西，这方面运维成本很高，小公司自己做没经验的话会很痛苦。建议直接买云厂商的解决方案。例如阿里云的 maxcompute 。比较现代的解决方案一般是存算分离，存储一般用普通的 oss 。

在这个基本的仓库服务上，建议再酌情选择数据治理，数据管道等组件。这方面可以开源和购买相结合。