hadoopspark专题

【转载 HadoopSpark 动手实践 2】Hadoop2.7.3 HDFS理论与动手实践

原文：http://www.cnblogs.com/licheng/p/6825089.html 简介 HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。 HDFS有很多特点： ① 保存多个副本

HadoopSpark解决二次排序问题(Hadoop篇)

问题描述　　二次排序就是对每一个key对应的value进行排序，也就是对MapReduce的输出(KEY, Value(v1,v2,v3,......,vn))中的Value(v1,v2,v3,......,vn)值进行排序（升序或者降序），使得Value(s1,s2,s3,......,sn)，si ∈ (v1,v2,v3,......,vn)且s1 < s2 < s3 < ......

CC00032.spark——|HadoopSpark.V06|——|Spark.v06|sparkcore|RDD编程高阶RDD分区器|

一、RDD分区器 ### --- 以下RDD分别是否有分区器，是什么类型的分区器scala> val rdd1 = sc.textFile("/wcinput/wc.txt")rdd1: org.apache.spark.rdd.RDD[String] = /wcinput/wc.txt MapPartitionsRDD[34] at textFile at <console>:2