Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版 第七章 Spark RDD编程实验

本文主要是介绍Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版 第七章 Spark RDD编程实验,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Apache Spark中,`sc` 和 `reduce` 分别代表 SparkContext 和 reduce 函数。

1. SparkContext (`sc`):是 Spark 的主要入口点,它代表与 Spark 集群的连接。
在 Spark 应用程序中,需要首先创建一个 SparkContext 对象,负责与集群通信并管理资源。通过 SparkContext,可以创建 RDDs(Resilient Distributed Datasets)、Broadcast Variables、Accumulators 等。
2. Reduce 函数:在分布式计算中,reduce 函数是一个用于聚合数据的操作。
在 Spark 中,reduce 函数通常用于对 RDD(Resilient Distributed Dataset)中的元素执行聚合操作。
接受一个函数作为参数,函数定义了如何将两个元素聚合成一个新元素。
reduce 函数会在集群中的多个节点上并行执行,并在最后将结果聚合起来。
常见的用例包括对数字进行求和、查找最大值或最小值等。

使用文本文件创建RDD

注意:需要先在hadoop分布式文件系统中创建文件

1.先在本地文件系统创建data.txt文件

cd /usr/local/hadoop/input

gedit data.txt

2.启动hadoop分布式文件系统

./sbin/start-dfs.sh

3.上传本地文件data.txt到hadoop分布式文件系统

hdfs dfs -put /usr/local/hadoop/input/data.txt input

查看分布式文件系统中是否存在data.txt
hdfs dfs -ls input
e92c49aae00645cb8a704563a14caca6.png

textFile 函数用于读取文本文件中的内容,并将其转换为RDD。

rdd.map(line => line.length):这一行代码将每一行文本映射为其长度,即字符数。

.map()函数对RDD中的每个元素应用给定的函数,并返回结果组成的新RDD。

.reduce(_ + _):这一行代码对RDD中的所有元素进行累加,得到它们的总和。.reduce()函数将RDD中的元素两两合并,直到只剩下一个元素,这里使用的匿名函数 _ + _ 表示将两个元素相加。

val wordCount = rdd.map(line => line.length).reduce(_ + _):这行代码将文本文件中所有行的字符数求和,并将结果保存在wordCount变量中。

wordCount:最后,wordCount 变量中保存着文本文件中所有行的字符总数。

val rdd = sc.textFile("/user/hadoop/input/data.txt")
rdd: org.apache.spark.rdd.RDD[String] = /user/hadoop/input/data.txt MapPartitionsRDD[31] at textFile at <console>:25val wordCount = rdd.map(line => line.length).reduce(_ + _)
wordCountwordCount: Int = 274
res11: Int = 274

一些JSON数据

{
  "name": "中国",
  "province": [
    {
      "name": "河南",
      "cities": [
        {
          "city": ["郑州","洛阳"]
      ]
    }
  ]
}
```

{
  "code": 0,
  "msg": "",
  "count": 2,
  "data": [
    {
      "id": 101,
      "username": "zhangsan",
      "city": "xiamen"
    },
    {
      "id": 102,
      "username": "liming",
      "city": "zhengzhou"
    }
  ]
}
{"学号":"106","姓名":"李明","数据结构":"92"}

{"学号":"242","姓名":"李乐","数据结构":"93"}

{"学号":"107","姓名":"冯涛","数据结构":"99"}

完整程序练习

seq是一个包含元组的列表,每个元组都有一个字符串键和一个字符串列表值。

sc.parallelize方法将seq转换为一个RDD。

rddP.partitions.size是用来获取RDD的分区数量的。RDD的分区是数据的逻辑划分,决定了数据在集群中的分布方式。每个分区都可以在集群的不同节点上进行并行处理。

//使用程序中的数据创建RDDval arr = Array(1,2,3,4,5,6)val rdd = Array(1,2,3,4,5,6)arr: Array[Int] = Array(1, 2, 3, 4, 5, 6)
rdd: Array[Int] = Array(1, 2, 3, 4, 5, 6)val sum = rdd.reduce(_ + _)sum: Int = 21//parallelize() 创建RDDval seq = List( ("num", List("one","two","three") ), ("study",List("Scala","Python","Hadoop")) , ("color", List("blue","white","black")) )val rddP = sc.parallelize(seq)   rddp.partitions.sizeseq: List[(String, List[String])] = List((num,List(one, two, three)), (study,List(Scala, Python, Hadoop)), (color,List(blue, white, black)))
rddP: org.apache.spark.rdd.RDD[(String, List[String])] = ParallelCollectionRDD[7] at parallelize at <console>:31
res5: Int = 2//makeRDD() 创建RDDval rddM = sc.makeRDD(seq)rddM.partitions.sizerddM: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[8] at makeRDD at <console>:30
res6: Int = 3//hdfs的文件创建RDDval rdd = sc.textFile("/user/hadoop/input/data.txt")rdd: org.apache.spark.rdd.RDD[String] = /user/hadoop/input/data.txt MapPartitionsRDD[31] at textFile at <console>:25val wordCount = rdd.map(line => line.length).reduce(_ + _)wordCountwordCount: Int = 274
res11: Int = 274//本地文件创建RDDval rdd = sc.textFile("file:/home/hadoop/data.txt")val wordCount = rdd.map(line => line.length).reduce(_ + _)wordCountrdd: org.apache.spark.rdd.RDD[String] = file:/home/hadoop/data.txt MapPartitionsRDD[34] at textFile at <console>:29
wordCount: Int = 274
res12: Int = 274val rddw1 = sc.textFile("file:/home/hadoop/input")rddw1.collect()rddw1: org.apache.spark.rdd.RDD[String] = file:/home/hadoop/input MapPartitionsRDD[37] at textFile at <console>:25
res13: Array[String] = Array(Hello Spark!, Hello Scala!)val rddw1 = sc.wholeTextFiles("file:/home/hadoop/input")rddw1.collect()rddw1: org.apache.spark.rdd.RDD[(String, String)] = file:/home/hadoop/input MapPartitionsRDD[39] at wholeTextFiles at <console>:27
res14: Array[(String, String)] =
Array((file:/home/hadoop/input/text1.txt,"Hello Spark!
"), (file:/home/hadoop/input/text2.txt,"Hello Scala!
"))val jsonStr = sc.textFile("file:/home/hadoop/student.json")jsonStr.collect()jsonStr: org.apache.spark.rdd.RDD[String] = file:/home/hadoop/student.json MapPartitionsRDD[48] at textFile at <console>:28
res18: Array[String] = Array({"学号":"106","姓名":"李明","数据结构":"92"}, {"学号":"242","姓名":"李乐","数据结构":"93"}, {"学号":"107","姓名":"冯涛","数据结构":"99"})import scala.util.parsing.json.JSONval jsonStr = sc.textFile("file:/home/hadoop/student.json")val result  = jsonStr.map(s => JSON.parseFull(s))result.foreach(println)Some(Map(学号 -> 107, 姓名 -> 冯涛, 数据结构 -> 99))
Some(Map(学号 -> 106, 姓名 -> 李明, 数据结构 -> 92))
Some(Map(学号 -> 242, 姓名 -> 李乐, 数据结构 -> 93))import scala.util.parsing.json.JSON
jsonStr: org.apache.spark.rdd.RDD[String] = file:/home/hadoop/student.json MapPartitionsRDD[50] at textFile at <console>:31
result: org.apache.spark.rdd.RDD[Option[Any]] = MapPartitionsRDD[51] at map at <console>:32import java.io.StringReaderimport au.com.bytecode.opencsv.CSVReaderval gradeRDD = sc.textFile("file:/home/hadoop/sparkdata/grade.csv")val result = gradeRDD.map{line => val reader = new CSVReader(new StringReader(line));reader.readNext()}result.collect().foreach(x => println(x(0),x(1),x(2)))(101,LiNing,95)
(102,LiuTao,90)
(103,WangFei,96)import java.io.StringReader
import au.com.bytecode.opencsv.CSVReader
gradeRDD: org.apache.spark.rdd.RDD[String] = file:/home/hadoop/sparkdata/grade.csv MapPartitionsRDD[53] at textFile at <console>:31
result: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[54] at map at <console>:32

 

 

 

 

 

这篇关于Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版 第七章 Spark RDD编程实验的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/951054

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

Java并发编程必备之Synchronized关键字深入解析

《Java并发编程必备之Synchronized关键字深入解析》本文我们深入探索了Java中的Synchronized关键字,包括其互斥性和可重入性的特性,文章详细介绍了Synchronized的三种... 目录一、前言二、Synchronized关键字2.1 Synchronized的特性1. 互斥2.

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S