spark 将 dataframe 写到 hdfs 为什么会如此耗时？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 3065 days ago, the information mentioned may be changed or developed.

公司这边有个数据聚合的任务，聚合的过程中遇到了数据倾斜，通过局部聚合和全局聚合的方式解决，速度提升了很多，12G 的数据大概需要 15 分钟左右聚合完，但是在最后以 json 格式的文件存储到 hdfs 上时特别耗时，而且偶尔会报内存溢出，spark.default.parallelism 设置的是 200，最后保存时是这么写的：df.repartition(20).write.json(savePath)，求 spark 大神指点我哪里有问题，该怎么解决这个问题？谢谢。

聚合

hdfs

JSON

Spark

18 replies • 2017-12-26 16:24:21 +08:00

linuxchild

Dec 25, 2017

压缩一下再写试试

wudc

Dec 25, 2017

@linuxchild 嗯，谢谢，我加上了这段代码 df.persist(StorageLevel.MEMORY_AND_DISK_SER)，现在程序在跑

F281M6Dh8DXpD1g2

Dec 25, 2017

df.repartition(20) 这样不是只起二十个 partition 在写么
直接 df.write.json 试试?

wudc

Dec 25, 2017

@liprais 想最后把结果写到 20 个文件中

mind3x

Dec 25, 2017

用 coalesce(20) 试试

zhusimaji

Dec 25, 2017 via iPhone

@wudc 你这个只是数据持久化

zhusimaji

Dec 25, 2017 via iPhone

@wudc 可以看下 spark job 看看卡在哪了

Mondoz

Dec 25, 2017

同 coalesce

wudc

Dec 25, 2017

@zhusimaji 卡在 df.repartition(20).write.json(savePath)这行了，数据量比较小时还可以但是数据量一大就栈溢出

wudc

Dec 25, 2017

@Mondoz
@mind3x
好的，改成 coalesce 已经在测试，谢谢。

F281M6Dh8DXpD1g2

Dec 25, 2017

可以先 df.repartition(20) 看看执行计划
然后你就明白为啥这么慢了

wudc

Dec 25, 2017

@liprais 嗯，明白了，去掉 reparation 确实快了不少，谢谢！

zhusimaji

Dec 25, 2017 via iPhone

@wudc 一般情况下不要指定分区数，因为这个都会自动计算出合理的分区，分区设置的过少，必然导致每个 job 处理的时间变长

wudc

Dec 26, 2017

@zhusimaji 嗯嗯，听你这么说我明白了，我分区是想防止过多结果文件的产生，现在看来有点画蛇添足了。

wudc

Dec 26, 2017

@zhusimaji 我这程序在处理大数据量的聚合时偶尔会报 OOM 内存溢出，您对此有什么比较好的解决方法吗？

zhusimaji

Dec 26, 2017

@wudc 不知道你是不是在 yarn 上执行，如果内存够的情况下给每个 executer 分配内存大一点

zhusimaji

Dec 26, 2017

oom 产生的原因很多，最好根据打印的 log 日志去找相对应的资料

wudc

Dec 26, 2017

@zhusimaji 是在 yarn 上，executor-cores、num-executors 和 executor-memory 已经设置成当前集群所允许的最大值了，我再想想吧，还是非常感谢你的指导。