我的Spark學習筆記( 二 ) _生活百科

mapPartitionsWithIndex算子：分區索引 + 數據迭代器import org.apache.spark.{SparkConf, SparkContext}// 分區索引object mapPartitionsWithIndex {def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")val sc = new SparkContext(sparkConf)val rdd = sc.makeRDD(List(1, 2, 3, 4), 2)val mpiRDD = rdd.mapPartitionsWithIndex(//（分區索引，數據迭代器）(index, iter) => {println("index:" + index, "iter[" + iter.mkString(",") + "]")})mpiRDD.collect().foreach(println)sc.stop()}}flatMap算子：數據扁平化import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}// 將處理的數據進行扁平化后再進行映射處理，所以算子也稱之為扁平映射object flatMap {def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")val sc = new SparkContext(sparkConf)val rdd: RDD[List[Int]] = sc.makeRDD(List(List(1, 2), List(3, 4)))// 多個list合并成一個listval flatRDD: RDD[Int] = rdd.flatMap(list => list)flatRDD.collect().foreach(println)sc.stop()}}glom算子：分區內數據合并import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}// 將同一個分區的數據直接轉換為相同類型的內存數組進行處理，分區不變object glom {def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")val sc = new SparkContext(sparkConf)val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 2)// 把每一個分區內數據合并成Arrayval glomRDD: RDD[Array[Int]] = rdd.glom()glomRDD.collect().foreach(array => {println(array.mkString(","))})sc.stop()}}groupBy算子：數據分組import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}// 將數據根據指定的規則進行分組, 分區默認不變，但是數據會被打亂重新組合，我們將這樣的操作稱之為 shuffle 。// 極限情況下，數據可能被分在同一個分區中一個組的數據在一個分區中，但是并不是說一個分區中只有一個組，分組和分區沒有必然的關系object groupBy {def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")val sc = new SparkContext(sparkConf)val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 2)// groupBy會將數據源中的每一個數據進行分組判斷，根據返回的分組key進行分組，相同的key值的數據會放置在一個組中// val groupRDD: RDD[(Int, Iterable[Int])] = rdd.groupBy(num => num % 2)val groupRDD: RDD[(Int, Iterable[Int])] = rdd.groupBy(_ % 2)groupRDD.collect().foreach(println)sc.stop()}}filter算子：數據過濾import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}// 將數據根據指定的規則進行篩選過濾，符合規則的數據保留，不符合規則的數據丟棄。// 當數據進行篩選過濾后，分區不變，但是分區內的數據可能不均衡，生產環境下，可能會出現數據傾斜。object filter {def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")val sc = new SparkContext(sparkConf)val rdd = sc.makeRDD(List(1, 2, 3, 4))val filterRDD: RDD[Int] = rdd.filter(num => num % 2 != 0)filterRDD.collect().foreach(println)sc.stop()}}sample算子：數據采樣隨機抽取import org.apache.spark.{SparkConf, SparkContext}// 根據指定的規則從數據集中抽取數據object sample {def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")val sc = new SparkContext(sparkConf)val dataRDD = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10), 1)// 抽取數據不放回（伯努利算法）// 伯努利算法：又叫 0、 1 分布。例如扔硬幣，要么正面，要么反面。// 具體實現：根據種子和隨機算法算出一個數和第二個參數設置幾率比較，小于第二個參數要，大于不要// 第一個參數：抽取的數據是否放回，false：不放回// 第二個參數：抽取的幾率，范圍只能在[0,1]之間,0：全不?。?1：全?。?// 第三個參數：隨機數種子val dataRDD1 = dataRDD.sample(false, 0.5)// 抽取數據放回（泊松算法）// 第一個參數：抽取的數據是否放回，true：放回； false：不放回// 第二個參數：重復數據的幾率，范圍大于等于0，可以大于1 表示每一個元素被期望抽取到的次數// 第三個參數：隨機數種子// 例如數據集內有10個，fraction為1的話抽取10個，0.5的話抽取5個， 2的話抽取20個val dataRDD2 = dataRDD.sample(true, 2)println(dataRDD1.collect().mkString(","))println(dataRDD2.collect().mkString(","))sc.stop()}}distinct算子：數據去重import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object distinct {def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")val sc = new SparkContext(sparkConf)val rdd = sc.makeRDD(List(1, 2, 3, 4, 1, 2, 3, 4))val rdd1: RDD[Int] = rdd.distinct()val rdd2: RDD[Int] = rdd.distinct(2)// 底層相當于這樣寫val rdd3 = rdd.map(x => (x, null)).reduceByKey((x, _) => x).map(_._1)println(rdd.collect().mkString(","))println(rdd1.collect().mkString(","))println(rdd2.collect().mkString(","))println(rdd3.collect().mkString(","))sc.stop()}}


上一頁
1
2
3
4
5
下一頁
		  	

    
    




    
    
    


推薦閱讀

           
                  
              
                  凍了的木瓜還能不能吃 木瓜凍了還可以吃嗎?? 
                
                   
                
              
            

                  
              
                  補充葉酸、避免泡溫泉，降低脊裂癥風險 
                
                   
                
              
            

                  
              
                  幾千塊錢的二手面包車能買嗎 幾千塊錢的二手面包車能買嗎？ 
                
                   
                
              
            

                  
              
                  白術佛手湯的功效與作用 白術佛手湯的禁忌 
                
                   
                
              
            

                  
              
                  夏天喝酸奶的好處 夏天喝酸奶的好處簡述 
                
                   
                
              
            

                  
              
                  寧波醫保中心電話 寧波醫保中心咨詢電話 
                
                   
                
              
            

                  
              
                  夏利a車圖片，夏利車系列 
                
                   
                
              
            

                  
              
                  種植辣椒前景怎么樣 種植辣椒前景怎么樣視頻 
                
                   
                
              
            

                  
              
                  昌吉美食作文  昌吉美食 
                
                   
                
              
            

                  
              
                  西塞山前白鷺飛 西塞山前白鷺飛 
                
                   
                
              
            

                  
              
                  冬季平菇接種什么溫型，平菇種植方法 
                
                   
                
              
            

                  
              
                  車險電話是24小時的嗎 各大車險公司電話號碼大全 
                
                   
                
              
            

                  
              
                  《諾貝爾獎包括哪些獎項 諾貝爾獎到底包括哪些獎項-諾貝爾獎包括哪些獎項 諾貝爾獎到底包括哪些獎項》 
                
                   
                
              
            

                  
              
                  孩子姓華叫什么好 姓華的有什么名字比較好? 
                
                   
                
              
            

                  
              
                  打鼻子的玻尿酸一般什么牌子的好 鼻子打玻尿酸注意事項有哪些 
                
                   
                
              
            

                  
              
                  戴爾家用電腦臺式機推薦 戴爾家用電腦 
                
                   
                
              
            

                  
              
                  帶魚怎么炸好吃，炸帶魚段家常做法酥脆好吃？ 
                
                   
                
              
            

                  
              
                  最強蝸牛物種戰爭怎么進 
                
                   
                
              
            

                  
              
                  仰臥起坐怎么才能脖子不使勁 怎么做仰臥起坐不累脖子 
                
                   
                
              
            

                  
              
                  自動駐車危害是什么 自動駐車的危害 
                
                   
                
              
            

          

我的世界豹貓怎么馴服（我的世界喂養小動物) 

我的世界豹子怎么馴服（我的世界怎么喂豹子) 

我的世界貓如何馴服（我的世界馴服大全) 

《我的世界》豹貓怎么馴服，豹貓馴服技巧（我的世界豹貓怎么進化) 

我的湯姆貓里的2048怎么玩（能玩2048的湯姆貓) 

JVM學習筆記——垃圾回收篇 

我的世界怎么去月球無模組無指令（我的世界新版怎么去月球) 

我的世界怎么去月球，我的世界手機版月球傳送門怎么做 

我的世界怎么去月球模組免費（mc月球模組) 

我的世界虛無3月球怎么去（我的世界虛無世界怎么找傳送門)

我的Spark學習筆記( 二 )

推薦閱讀

凍了的木瓜還能不能吃木瓜凍了還可以吃嗎??

補充葉酸、避免泡溫泉，降低脊裂癥風險

幾千塊錢的二手面包車能買嗎幾千塊錢的二手面包車能買嗎？

白術佛手湯的功效與作用白術佛手湯的禁忌

夏天喝酸奶的好處夏天喝酸奶的好處簡述

寧波醫保中心電話寧波醫保中心咨詢電話

夏利a車圖片，夏利車系列

種植辣椒前景怎么樣種植辣椒前景怎么樣視頻

昌吉美食作文昌吉美食

西塞山前白鷺飛西塞山前白鷺飛

冬季平菇接種什么溫型，平菇種植方法

車險電話是24小時的嗎各大車險公司電話號碼大全

《諾貝爾獎包括哪些獎項諾貝爾獎到底包括哪些獎項-諾貝爾獎包括哪些獎項諾貝爾獎到底包括哪些獎項》

孩子姓華叫什么好姓華的有什么名字比較好?

打鼻子的玻尿酸一般什么牌子的好鼻子打玻尿酸注意事項有哪些

戴爾家用電腦臺式機推薦戴爾家用電腦

帶魚怎么炸好吃，炸帶魚段家常做法酥脆好吃？

最強蝸牛物種戰爭怎么進

仰臥起坐怎么才能脖子不使勁怎么做仰臥起坐不累脖子

自動駐車危害是什么自動駐車的危害