今天需要捞出一张表的数据( xxId ),然后插入另一张表中,数据量比较大,200W,并且 xxId 会重复,需要去重之后再插入另一张表。
- 一开始我选择查询出所有的数据,存入 Set 中去重,此时剩余 60W,之后每次 1W 条插入表中,直接 OOM。
- 查询的时候通过 limit 每次捞出 1W 条数据,去重插入,此时原表 xxId 重复,然后导致前后两次去重插入后 xxId 还是重复了。
- 去重通过 distinct,每次捞出 1w 条,然后插入... 效率巨慢,相当于要进行 60 次 distinct....
https://github.com/dackh/blog
blog 喜欢可以 star hhh