现在数据库有一张表数据已经过亿了,需要从不同维度统计按日,按月的数据,有没有什么好的解决方案呀,求教各位大神
现在数据库有一张表数据已经过亿了,需要从不同维度统计按日,按月的数据,有没有什么好的解决方案呀,求教各位大神
1
imherer Oct 13, 2020
再建一张表把统计结果放进去,下次有用户统计的时候直接展示统计结果表里的数据即可
|
2
clf Oct 13, 2020
看看 ClickHouse ?
|
5
misaka19000 Oct 13, 2020
Spark
|
6
NeezerGu Oct 13, 2020
涉及上亿数据按天 /月 group by 的建议找大数据团队走 hive 来统计吧?
如果没有这方面的资源,那我很怀疑直接跑 sql,会比直接 select 出来然后 python 来跑还要慢? 另外如 1L,如果不不涉及历史记录修改,只涉及增量数据更新,那建议直接生成每天的结果数据,然后单独保存展示 |
7
sonice Oct 13, 2020
为啥都觉得上亿就多,单机的 es 或者 clickhouse 解决都是轻轻松松
|
11
huayumo Oct 13, 2020
我也觉得 es 挺好用
|
12
jenlors Oct 13, 2020
ClickHouse 可以满足你
|
16
9LCRwvU14033RHJo Oct 14, 2020
|
17
wellsc Oct 14, 2020
时序数据库
|
18
lifanxi Oct 14, 2020 via Android
|
19
rapperx2 Oct 14, 2020
我们公司也是过亿表遇见你这种情况,现在方案是迁移数据库 clickhouse (之前是 sqlserver )
|
21
kaiz1121 Oct 14, 2020 如果是单表,可以选择 clickhouse,但是 clickhouse join 操作不行,但 clickhouse 单表还是宇宙第一。复杂多表不能单单靠一个组件就解决的。需要上一套系统,从 ETL 开始 监听 MySQL binlog,或者写入 mysql 的业务,双写到消息队列,然后把数据同步到写优化层,比如 hudi,然后从从写优化层导入到读优化层,比如 doris,然后从 doris 查询就很快了。如果是简单的统计,可以用 hbase,不用引入读优化层,和写优化层。但是如果是报表类的复杂查询,hbase 是不够的,有钱的话,直接用 ES,省心,慢了加机器。 还是得看具体业务需求。
|
22
laminux29 Oct 14, 2020
什么业务,什么设备以及设备性能指标,什么系统,什么软件,数据结构怎样,相关设备最近一个月以分钟为粒度的负载表,你做这事有什么资源,做着事有什么性能指标或特性偏向,等等。你问的这个问题,至少要给出以上这些基本这些信息。不然,让我学楼上所有老哥,激活天赋技能 [先知] ,进行盲猜?
而且你做这事,信息安全,数据权限,备份等问题,你还得自己想好怎么处理。 |
23
madworks Oct 14, 2020
上亿数据,不同维度,按日按月???直接报表工具啊,powerbi,tableau,ssas
|