摘要:摘要是一个项目,它被标榜为快如闪电的集群计算。它拥有一个繁荣的开源社区,并且是目前最活跃的项目。提供了一个更快更通用的数据处理平台。更多经典案例介绍期待下回分解。。。
摘要
Spark是一个Apache项目,它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区,并且是目前最活跃的Apache项目。Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比,Spark可以让你的程序在内存中运行时速度提升100倍,或者在磁盘上运行时速度提升10倍。同时spark也让传统的map reduce job开发变得更加简单快捷。本文将简单介绍几个经典hadoop的mr按理用spark实现,来让大家熟悉spark的开发。
最大值最小值求最大值最小值一直是Hadoop的经典案例,我们用Spark来实现一下,借此感受一下spark中mr的思想和实现方式。话不多说直接上code:
@Test def testMaxMin: Unit = { val sconf = new SparkConf().setAppName("test") val sc = new SparkContext(sconf) //初始化测试数据 val data = sc.parallelize(Array(10,7,3,4,5,6,7,8,1001,6,2)) //方法一 val res = data.map(x => ("key", x)).groupByKey().map(x => { var min = Integer.MAX_VALUE var max = Integer.MIN_VALUE for(num <- x._2){ if(num>max){ max = num } if(num{ println("max "+x._1) println("min "+x._2) }) //方法二,下面用一个比较鸡贼的方式求最大最小值 val max = data.reduce((a,b) => Math.max(a,b)) val min = data.reduce((a,b) => Math.min(a,b)) println("max : " + max) println("min : " + min) sc.stop }
预期结果:
max: 1001 min: 2
思路和hadoop中的mr类似,设定一个key,value为需要求最大与最小值的集合,然后再groupBykey聚合在一起处理。第二个方法就更简单,性能也更好。
平均值问题求每个key对应的平均值是常见的案例,在spark中处理类似问题常常会用到combineByKey这个函数,详细介绍请google一下用法,下面看代码:
@Test def testAvg(): Unit ={ val sconf = new SparkConf().setAppName("test") val sc = new SparkContext(sconf) //初始化测试数据 val foo = sc.parallelize(List(Tuple2("a", 1), Tuple2("a", 3), Tuple2("b", 2), Tuple2("b", 8))); //这里需要用到combineByKey这个函数,需要了解的请google val results=foo.combineByKey( (v)=>(v,1), (acc:(Int,Int),v) =>(acc._1+v,acc._2+1), (acc1:(Int,Int),acc2:(Int,Int))=>(acc1._1+acc2._1,acc1._2+acc2._2) ).map{case(key,value)=>(key,value._1/value._2.toDouble)} results.collect().foreach(println) }
我们让每个partiton先求出单个partition内各个key对应的所有整数的和 sum以及个数 count,然后返回一个pair(sum, count)在shuffle后累加各个key对应的所有sum和count,再相除得到均值.
TopN问题Top n问题同样也是hadoop种体现mr思想的经典案例,那么在spark中如何方便快捷的解决呢:
@Test def testTopN(): Unit ={ val sconf = new SparkConf().setAppName("test") val sc = new SparkContext(sconf) //初始话测试数据 val foo = sc.parallelize(Array( ("a", 1), ("a", 2), ("a", 3), ("b", 3), ("b", 1), ("a", 4), ("b", 4), ("b", 2) )) //这里测试,取top 2。 val groupsSort=foo.groupByKey().map(tu=>{ val key=tu._1 val values=tu._2 val sortValues=values.toList.sortWith(_>_).take(2) (key,sortValues) }) //转换格式进行print val flattenedTopNPerGroup = groupsSort.flatMap({case (key, numbers) => numbers.map(key -> _)}) flattenedTopNPerGroup.foreach((value: Any) => { println(value) }) sc.stop }
思路很简单,把数据groupBykey以后按key形成分组然后取每个分组最大的2个。预期结果:
(a,4) (a,3) (b,4) (b,3)
以上简单介绍了一下hadoop中常见的3个案例在spark中的实现。如果读者们已经接触过或者写过一些hadoop的mapreduce job,那么会不会觉得在spark中写起来方便快捷很多呢。
更多spark经典案例介绍期待下回分解。。。
作者信息
MaxLeap团队_数据分析组 成员:谭杨【原创】
首发自:https://blog.maxleap.cn/archi...
作者往期佳作
浅析时间序列数据
浅析Apache Spark Caching和Checkpointing
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/66285.html
摘要:创新萌芽期望最顶点下调预期至低点回归理想生产率平台。而大数据已从顶峰滑落,和云计算接近谷底。对于迅速成长的中国市场,大公司也意味着大数据。三家对大数据的投入都是不惜余力的。 非商业转载请注明作译者、出处,并保留本文的原始链接:http://www.ituring.com.cn/article/177529 董飞,Coursera数据工程师。曾先后在创业公司酷迅,百度基础架构组...
阅读 1872·2021-11-15 11:39
阅读 1076·2020-12-03 17:06
阅读 732·2019-12-27 11:42
阅读 3270·2019-08-30 13:59
阅读 1457·2019-08-26 13:22
阅读 3285·2019-08-26 12:15
阅读 2473·2019-08-26 10:22
阅读 1562·2019-08-23 18:40