大数据赛道上的单挑：MapReduce与Spark到底谁快？

作者： CashCat
2015年10月10日
动态, 大数据

通常人们认为Spark的性能和速度全面优于MapReduce，但最新的对决显示MapReduce在某些方面也有胜场，而且数据规模越大优势越大。

Apache Spark是当今最火爆的大数据处理框架。通常人们认为Spark的性能和速度全面优于MapReduce，且更加容易使用，而且Spark已经拥有一个庞大的用户和贡献者社区，这意味着Spark更加符合下一代低延迟、实时处理、迭代计算的大数据应用的要求，大有取代MapReduce的趋势。

关于Spark和Mapreduce的性能PK已经在业界进行多次，不少人认为Spark仅仅是在内存计算环境比Mapreduce表现出色，但也有公司认为Spark全面压倒Mapreduce，例如2014年Spark商业化公司Databrick在磁盘环境给Spark做了GraySort跑分测试（下图），显示Spark的磁盘性能也同样彪悍。

Spark Hadoop磁盘性能对比测试

那么，Spark真的是全面超越MapReduce了吗？

近日，IBM中国研究中心发布的一篇论文中的比测试显示，在Word Count、K-means和PageRank三类大数据处理任务中，Spark比MapReduce分别快2.5倍、5倍和5倍。这得益于的RDD缓存减少了CPU和磁盘开销。

MapReduce vs Spark

但是在排序任务（Sort）方面，MapReduce的执行速度是Spark的两倍（两者的速度差异随着数据集规模的增加逐渐拉大，数据集越大，MapReduce的优势越明显，上图），因为MapReduce混编数据的执行模型比Spark的效率高很多。


第一时间获取面向IT决策者的独家深度资讯，敬请关注IT经理网微信号：ctociocom


   除非注明，本站文章均为原创或编译，未经许可严禁转载。


相关文章：


                    条条大道通罗马：大数据分析工具的十条学习路径
                                      最受欢迎的十个开源大数据技术
                                      大数据时代的Google？市场智能平台Ekho获得120万美元投资
                                      NSA天网计划：基于机器学习算法的云端大数据高级分析系统
                                      菜鸟也能玩转大数据：Airbnb开源Presto数据库SQL工具
                                      NSA开源大数据分析工具Nifi
                                      磁盘性能同样彪悍，Spark打破大数据基准测试记录
                                      Hortonworks改进内存分析平台Spark与Hadoop全面整合
                  



标签： Mapreduce, Spark, 大数据分析工具