增量数据统计分析每分钟 2-3w 原数据 500w

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 3053 天前的主题，其中的信息可能已经有所发展或是发生改变。

现在的场景是这样的
原表 500w 左右的数据量现在每 20 分钟会有 2-3w 的增量数据

需求: 根据数据表中的一列(cid) 统计同一种 cid 出现次数最多的前 20 名

我自己的想法是后台写一个脚本定时读取这个表读入 redis 利用 ZINCRBY 做计数器
key 是这样的: user_top:xxx(对应的 cid) 每读一行相应的 key 加一最后统计只需要 zrangebyscore

然后在另一张日志表记录本次读到的 id 下次从这个地方接着读

那么如果 redis 突然挂了或者发生其他原因导致服务不可用那么即使做了 aof 也无法保证数据能百分百恢复这样的情况下该如何解决 , 或者还有别的什么解决方法来进行统计呢?

目前尚无回复

增量数据统计分析 每分钟 2-3w 原数据 500w