问题:什么应用场景下 group by 比 reduce by 更好?
当时懵逼了,感觉不是默认都尽量使用 reduce by 吗,现在我能想到的情况也只有在 key 值非常少的情况下用 group by 比较好,不知道对不对。
1
paradoxs 2018-12-07 09:52:27 +08:00
在对大数据进行复杂计算时,reduceByKey 优于 groupByKey。
另外,如果仅仅是 group 处理,那么以下函数应该优先于 groupByKey: ( 1 )、combineByKey 组合数据,但是组合之后的数据类型与输入时值的类型不一样。 ( 2 )、foldByKey 合并每一个 key 的所有值,在级联函数和“零值”中使用。 --- https://blog.csdn.net/zongzhiyuan/article/details/49965021 |
2
VoidChen 2018-12-07 10:03:45 +08:00
groupBy 不好的原因是因为在计算前会先移动数据,reduceby 是先各自计算出结果再汇聚起来计算。所以什么情况下用 groupBy 好呢,我想啊,可能在需要移动数据的时候,比如说我有一批数据希望分组存放,直接移到一起输出成一个文件,后续分 rdd 直接一个文件一个 rdd 这么计算就会非常快。我也刚学没多久,不知道说得对不对,只是给出一点想法=。=
|
3
vowers 2018-12-07 11:22:32 +08:00
em.....我都是能用 reduce 绝不用 group 的。。。
|
4
naga1003 OP 费解的就在问的是 group by 的优势啊,我是怎么都感觉没有优势啊,看来还是经验少了。
|
5
naga1003 OP 但仔细一想,如果 groupbykey 没有任何优点的话,岂不是没有存在必要了?所以应该确实是有应用场景的。
|
6
sakura1 2020-08-14 14:39:43 +08:00
不支持结合律的计算,比如去重?
|