大致需求是 所有系统的数据可以抽出来放入数据中心里,所有系统可以通过固定规范访问数据中心获取对应数据。进入到数据中心的数据需要经过一定的校验,否则会生成 csv 文件,人工修改后再选择传入数据中心。数据中心本身需要有一定的简单的业务处理能力,能对外提供查询服务(全文检索),并且可以对已有的数据进行分析的功能。
我自己的想法是可以先通过 es 实现。但是架构师后来给我提了什么数据仓库或者类似数据湖的概念,我查询了下又觉得 es 不足以能够实现或者替代 数据仓库和数据湖的思想。这种需求还有什么其他的解决思路么。
ps:个人感觉我一年的 java 开发经验上手做这种东西有点蛋疼了:( 不过创业公司,架构师基本上是一个大功能模块放出来,给我们一个思路让我们自己去尝试实现,只能加把劲争取做了。
路过的大佬给点思路!跪谢!
1
tomczhen 2020-11-10 11:01:09 +08:00 via Android
性能指标,功能指标,预算指标啥没有,就用云架构吧。
|
2
tabris17 2020-11-10 11:03:31 +08:00
碰到过好几次 es 掉数据了。不是很可靠的数据存储后端。
|
3
tabris17 2020-11-10 11:07:34 +08:00
另外 es 基本上没什么业务处理能力。不如考虑下 pgsql 或 hive 吧
|
5
snappyone 2020-11-10 11:08:47 +08:00
es 做搜索,存储用 hadoop 这种,计算用 spark 。一年经验确实难为你了
|
6
huifer 2020-11-10 11:10:37 +08:00
基础技术选型: Spark/Hive/Flink 这类提供查询方式的. 并不一定是 ES , es 提供全文搜索, 更适合于文档. 非结构化数据.
确定技术选型后需要制作 ETL 即 各类数据源数据收集处理, 转换成数据中心(数据仓库)的数据对象(数据结构) 数据转移完成后进行数据分类, 此时接入 ES 或者 MONGODB 我认为相对合适. 此时接入 ES 主要是进行归档数据存储, 后续对外暴露服务可以通过 Spark sql + es 搜索 等技术进行暴露服务, 编码语言等不做限制, |
7
ssssshi 2020-11-10 11:11:59 +08:00 1
直接搜数据中台技术架构 ,照着大厂的架构挑对自己公司有用的来,选型的时候多结合自己公司的业务和各产品特点,比如 CK 查询快,redis 数据新,计算用 hive spark flink 之类的,存储 hdfs,抽取 flume 等等...
一开始的时候架构分层要清晰,不要各种生命周期的数据混在一起 |
8
huifer 2020-11-10 11:12:51 +08:00
就针对数据处理而言可能需要采用 MQ 或者 主从数据库等形式来尽可能减少对线上环境的影响....考虑不是很全面. 请多指教
|
9
Renco OP 感谢!
|
11
silentt 2020-11-10 11:17:05 +08:00
给你一条生产上的建议,选型一定要选 SQL 语法支持完备的数据库做数仓。你会发现绝大部分大数据的工作都是写 SQL 。
|
13
angryfish 2020-11-10 12:58:17 +08:00 via iPhone
要是我说上 oracle,大家会不会打我
|
14
rapperx2 2020-11-10 13:09:37 +08:00
ClickHouse
|
16
evil0harry 2020-11-10 13:19:23 +08:00
clickhouse + kafka
|
17
levelworm 2020-11-10 13:21:30 +08:00 via Android
我们用 vertica 和 kafla,但是不知道你具体情况不好推荐。。。
|
18
zorui 2020-11-10 13:23:49 +08:00
阿里云 的话 dla 可以满足
|
19
jadec0der 2020-11-10 13:28:09 +08:00
ES 和数据湖是两个场景,数据湖里的数据做分析,是不在数据库端做条件查询的。比如一个 data scientist 用 Spark 分析订单数据,他会取全量的订单数据放到 Spark 里,然后写 Spark SQL 在内存里对数据进行查询。既然在数据库端不需要做查询,那就不需要对存储的数据做索引,数据存 csv 格式放对象存储里就行了。所以关键看数据怎么用,你得先把这个搞清楚。
|
20
zyuu2 2020-11-10 13:34:31 +08:00 1
postgresql+clickhouse 。clickhouse 存量大的、日志型数据,postgresql 存量小的、聚合后的数据。
|
21
teddy2725 2020-11-10 15:20:10 +08:00
这就是典型的数据仓库场景嘛,看来还有些元数据管理和数据治理的需求。让你一个一年经验的 java 搞这不是为难你嘛。架构师不出方案的嘛。
|
22
a719114136 2020-11-10 16:50:11 +08:00
能用现成的就用现成的吧,阿里云有个 MaxCompute 可以试下。
|
23
stephenxiaxy 2020-11-10 18:44:46 +08:00
clickhouse
|
24
yangzh 2020-11-10 19:03:26 +08:00 via iPhone
如果是分析数据的话,楼主可以搜索一下以下关键词:spark/clickhouse/postgresql,此外数据入库可以搜索以下关键词 flink/kafka 等。分析场景和 ES 还不太一样。
此外有条件的话可以考虑上云,例如楼上说的某云的 maxcompute (利益无关,几大公有云应该都有解决方案),否则运维会耗费精力。 |
25
NCE 2020-11-10 19:50:17 +08:00
你们公司真有钱,可以让架构师这么嚯嚯。
|
26
springz 2020-11-10 20:46:37 +08:00
看需求还是推荐 Greenplum,所谓的数据分析,大数据工程师,其实都是 SQL 工程师。
|
27
lrvy 2020-11-10 20:53:00 +08:00
logstash 采集 --> kafka --> ETL --> ClickHouse/Hive, 短期日志放 ch,冷数据丢 hive
|
28
mason961125 2020-11-10 20:54:39 +08:00
好家伙,点进来之前以为要建 DC
|