Spark性能调优-Shuffle调优及故障排除篇
Spark调优之Shuffle调优
本节开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。
本文首发于公众号【五分钟学大数据】,本公号专注于大数据技术,分享高质量大数据原创技术文章。
一、Shuffle的核心概念
1. ShuffleMapStage与ResultStage
在划分stage时,*最后一个stage称为F...