Spark入门之REPL/CLI/spark shell 快速学习

2023-11-21 10:30

本文主要是介绍Spark入门之REPL/CLI/spark shell 快速学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

*注:本文为本人结合网上资料翻译  Apache Spark 2.x for Java developers  一书而来,仅作个人学习研究之用,支持转载,但务必注明出处。

一、前言
本章的目的是提供指导,以便读者熟悉独立模式下安装Apache Spark的过程及其依赖关系。 然后,我们将开始与Apache Spark的第一次交互,通过使用Spark CLI(称为REPL)进行一些练习。
我们将继续讨论Spark组件以及与Spark相关的常用术语,然后讨论集群环境中Spark工作的生命周期。 我们还将从图形意义上探索Spark作业的执行,从创建DAG到执行Spark Web UI中提供的实用程序的最小任务单元。
最后,我们将通过使用Spark-Submit工具和Rest API讨论Spark Job配置和提交的不同方法来结束本章。

快速安装单机模式spark:
1.下载scala http://www.scala-lang.org/download/
2.安装scala:rpm -ivh scala-2.12.4.rpm
3.设置scala环境变量:vim /etc/profile
export SCALA_HOME=/usr/share/scalaexport PATH=$SCALA_HOME/bin:$PATH
4.下载spark: http://spark.apache.org/downloads.html
5.解压spark:tar -xvf /opt/spark-2.2.1-bin-hadoop2.7.tgz
6.配置spark环境变量:vim /etc/profile
export SPARK_HOME=/opt/spark/export PATH=$PATH:$SPARK_HOME/bin
大功告成!
通过下述命令启动spark单机模式:
$SPARK_HOME/bin/spark-shell
如果Spark二进制文件已经被加入到环境变量PATH中,我们可以简单地执行spark-shell命令即可。
可以在http://localhost:4040中获取spark驱动器用户界面。稍后会细讲

二、开始Spark REPL
Spark REPL或Spark shell(也称为Spark CLI)是探索Spark编程的非常有用的工具。 REPL是Read-Evaluate-Print Loop(读取-求值-打印 循环)的首字母缩写。 它是程序员用来与框架进行交互的交互式shell。 Apache Spark也带有REPL,初学者可以使用它来理解Spark编程模型。

2.1使用Spark shell进行一些基本练习
请注意,Spark shell仅在Scala语言中可用。 但是,我们已经让Java开发人员很容易理解这些例子。
2.1.1确认Spark版本
使用spark shell,通过下面的命令来确认spark脚本:
2.1.2创建和过滤RDD
让我们从创建一个string组成的RDD开始:
现在,我们来过滤这个RDD,使得其只留下以“j”开头的字符串
filter将一个rdd转化为另一个rdd,因此filter是transformation操作。
现在,我们对filteredrdd执行一个action操作来看看它的元素。让我们对filteredrdd执行collect操作:
collect操作返回了一个string类型的数组。因此,它是一个action操作。
2.1.3RDD中的word count
让我们对前面的stringRdd运行word count问题。word count就是大数据领域的HelloWorld。word count意味着我们将计算RDD中每个元素出现的次数。
我们如下来创建pairRDD变量:
(map(): map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。
pairRDD由单词和1(整型)构成的pair组成,其中单词代表的就是stringRDD中的字符串。
现在,我们对这个RDD执行reduceByKey操作来计算每个单词出现的次数。
(*注: reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行binary_function的reduce操作,因此,Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对。
现在,我们对其进行collect操作来看看结果:
2.1.4查找整数RDD中所有偶数的和
让我们创建一个整数RDD:
我们对这个RDD执行filter操作过滤出所有的偶数:
现在,我们把evenNumbersRDD中的所有元素加起来

2.1.5 计算文件中的单词数量
我们来读取位于$SPARK_HOME/examples/src/main/resources中的people.txt文件:
在REPL中,用textfile()读取文件:
下一步是扁平化文件的内容,也就是说,我们将通过分割每一行来创建一个RDD,并将列表中的所有单词拼合起来,如下所示:
(flatMap可以理解为先map后flat(扁平化),如此例中可将元素用逗号分隔成两个。而map一个元素只能映射到一个元素。)
flattenFile RDD的内容如下:

现在,我们可以计算这个RDD的所有单词数量。

无论何时调用诸如count的action,Spark都会创建一个有向无环图(DAG)来描述每个RDD的沿袭依赖关系。 Spark提供了调试方法toDebugString()来显示RDD的这种沿袭依赖关系:



参考文献:
Apache Spark 2.x for Java developers
S Gulati,S Kumar - 2017 - 被引量: 0
Gulati, Sourav; Kumar, Sumit

这篇关于Spark入门之REPL/CLI/spark shell 快速学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/401764

相关文章

Python实现快速扫描目标主机的开放端口和服务

《Python实现快速扫描目标主机的开放端口和服务》这篇文章主要为大家详细介绍了如何使用Python编写一个功能强大的端口扫描器脚本,实现快速扫描目标主机的开放端口和服务,感兴趣的小伙伴可以了解下... 目录功能介绍场景应用1. 网络安全审计2. 系统管理维护3. 网络故障排查4. 合规性检查报错处理1.

MySQL快速复制一张表的四种核心方法(包括表结构和数据)

《MySQL快速复制一张表的四种核心方法(包括表结构和数据)》本文详细介绍了四种复制MySQL表(结构+数据)的方法,并对每种方法进行了对比分析,适用于不同场景和数据量的复制需求,特别是针对超大表(1... 目录一、mysql 复制表(结构+数据)的 4 种核心方法(面试结构化回答)方法 1:CREATE

SpringCloud Stream 快速入门实例教程

《SpringCloudStream快速入门实例教程》本文介绍了SpringCloudStream(SCS)组件在分布式系统中的作用,以及如何集成到SpringBoot项目中,通过SCS,可... 目录1.SCS 组件的出现的背景和作用2.SCS 集成srping Boot项目3.Yml 配置4.Sprin

SpringBoot整合Apache Spark实现一个简单的数据分析功能

《SpringBoot整合ApacheSpark实现一个简单的数据分析功能》ApacheSpark是一个开源的大数据处理框架,它提供了丰富的功能和API,用于分布式数据处理、数据分析和机器学习等任务... 目录第一步、添加android依赖第二步、编写配置类第三步、编写控制类启动项目并测试总结ApacheS

SpringBoot集成iText快速生成PDF教程

《SpringBoot集成iText快速生成PDF教程》本文介绍了如何在SpringBoot项目中集成iText9.4.0生成PDF文档,包括新特性的介绍、环境准备、Service层实现、Contro... 目录SpringBoot集成iText 9.4.0生成PDF一、iText 9新特性与架构变革二、环

MySQL 批量插入的原理和实战方法(快速提升大数据导入效率)

《MySQL批量插入的原理和实战方法(快速提升大数据导入效率)》在日常开发中,我们经常需要将大量数据批量插入到MySQL数据库中,本文将介绍批量插入的原理、实现方法,并结合Python和PyMySQ... 目录一、批量插入的优势二、mysql 表的创建示例三、python 实现批量插入1. 安装 PyMyS

SpringMVC配置、映射与参数处理​入门案例详解

《SpringMVC配置、映射与参数处理​入门案例详解》文章介绍了SpringMVC框架的基本概念和使用方法,包括如何配置和编写Controller、设置请求映射规则、使用RestFul风格、获取请求... 目录1.SpringMVC概述2.入门案例①导入相关依赖②配置web.XML③配置SpringMVC

Python连接Spark的7种方法大全

《Python连接Spark的7种方法大全》ApacheSpark是一个强大的分布式计算框架,广泛用于大规模数据处理,通过PySpark,Python开发者能够无缝接入Spark生态系统,本文给大家介... 目录第一章:python与Spark集成概述PySpark 的核心优势基本集成配置步骤启动一个简单的

MySQL索引踩坑合集从入门到精通

《MySQL索引踩坑合集从入门到精通》本文详细介绍了MySQL索引的使用,包括索引的类型、创建、使用、优化技巧及最佳实践,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友... 目录mysql索引完整教程:从入门到入土(附实战踩坑指南)一、索引是什么?为什么需要它?1.1 什么

Java Lettuce 客户端入门到生产的实现步骤

《JavaLettuce客户端入门到生产的实现步骤》本文主要介绍了JavaLettuce客户端入门到生产的实现步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 目录1 安装依赖MavenGradle2 最小化连接示例3 核心特性速览4 生产环境配置建议5 常见问题