Spark WordCount使用示例

2024-08-27 12:38
文章标签 使用 示例 spark wordcount

本文主要是介绍Spark WordCount使用示例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

package com.sparktestimport org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}/**
  * 使用scala开发本地测试的Spark WordCount程序
  */
object WordCount {def main(args: Array[String]): Unit = {/**
      * 第一步:创建Spark配置对象SparkConf,设置Spark程序的运行时的配置信息
      * 例如,通过setMaster来设置程序要连接的Spark集群的MasterURL,若设置为local,则代表Spark程序在本地运行
      */
    val conf = new SparkConf()//创建SparkConf对象
    conf.setAppName("WordCount")//设置应用程序的名称,在程序运行的监控界面可以看到名称
    conf.setMaster("local")//此时程序在本地运行,不需要安装Spark集群

    /**
      * 第二步:创建SparkContext对象
      * SparkContextSpark程序所有功能的唯一入口,无论是采用ScalaJavaPythonR等都必须有一个SparkContext
      * sparkContext核心作用:初始化Spark应用程序运行所运行的核心组件,包括DAGSchedulerTaskSchedulerScheduler
      * 同时还会负责Spark程序往Master注册程序等
      * SparkContext是整个Spark应用程序中最为重要的对象
      */
    val sc = new SparkContext(conf)//创建SparkContext,通过传入SparkConf实例来定制Spark运行的具体参数和配置信息

    /**
      * 第三步:根据具体的数据来源,例如HDFSHBaseLocal FSDBS3等,通过SparkContext来创建RDD
      * RDD的创建基本有3中方式:
      * 3.1.根据外部的数据来源,例如HDFS      * 3.2.scala集合
      * 3.3.由其他的RDD操作产生
      * 数据会被RDD划分成为一系列的Partitions,分配到每个Partition的数据属于一个Task的处理范畴
      */
    val lines = sc.textFile("D://spark-1.6.0-bin-hadoop2.6//README.MD",4)//读取本地文件,并设置成一个Partition
//    val linesRDD[String] = sc.textFile("D://spark-1.6.0-bin-hadoop2.6//README.MD",4)//读取本地文件,并设置成一个Partition

    /**
      * 第四步:对初始的RDD进行Transformation级别的处理,例如mapfilter等高阶函数的编程,来进行具体的数据计算
      * 4.1将每一行的字符串拆分成单个的单词
      */
    val words = lines.flatMap{line => line.split(" ")}//对每一行的字符串,进行单词拆分,并把所有行的拆分结果通过flatMap合并成为一个大的单词集合
    /**
      * 第四步:对初始的RDD进行Transformation级别的处理,例如mapfilter等高阶函数的编程,来进行具体的数据计算
      * 4.2在单词拆分的基础上对每个单词实例计数为1,也就是word => (word,1)
      */
    val pairs = words.map(word => (word,1))/**
      * 第四步:对初始的RDD进行Transformation级别的处理,例如mapfilter等高阶函数的编程,来进行具体的数据计算
      * 4.3在单词实例计数为1的基础上统计每个单词在文件中出现的总次数
      */
    val wordCounts = pairs.reduceByKey(_+_)//对相同的Key进行Value的累加(包括localReducer级别同时Reduce
    wordCounts.foreach(wordNumberPair => println(wordNumberPair._1 + " : " + wordNumberPair._2))sc.stop()}
}

这篇关于Spark WordCount使用示例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1111697

相关文章

C++ Sort函数使用场景分析

《C++Sort函数使用场景分析》sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变,如果某些场景需要保持相同元素间的相对顺序,可使... 目录C++ Sort函数详解一、sort函数调用的两种方式二、sort函数使用场景三、sort函数排序

Java String字符串的常用使用方法

《JavaString字符串的常用使用方法》String是JDK提供的一个类,是引用类型,并不是基本的数据类型,String用于字符串操作,在之前学习c语言的时候,对于一些字符串,会初始化字符数组表... 目录一、什么是String二、如何定义一个String1. 用双引号定义2. 通过构造函数定义三、St

Pydantic中Optional 和Union类型的使用

《Pydantic中Optional和Union类型的使用》本文主要介绍了Pydantic中Optional和Union类型的使用,这两者在处理可选字段和多类型字段时尤为重要,文中通过示例代码介绍的... 目录简介Optional 类型Union 类型Optional 和 Union 的组合总结简介Pyd

Vue3使用router,params传参为空问题

《Vue3使用router,params传参为空问题》:本文主要介绍Vue3使用router,params传参为空问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录vue3使用China编程router,params传参为空1.使用query方式传参2.使用 Histo

使用Python自建轻量级的HTTP调试工具

《使用Python自建轻量级的HTTP调试工具》这篇文章主要为大家详细介绍了如何使用Python自建一个轻量级的HTTP调试工具,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录一、为什么需要自建工具二、核心功能设计三、技术选型四、分步实现五、进阶优化技巧六、使用示例七、性能对比八、扩展方向建

使用Python实现一键隐藏屏幕并锁定输入

《使用Python实现一键隐藏屏幕并锁定输入》本文主要介绍了使用Python编写一个一键隐藏屏幕并锁定输入的黑科技程序,能够在指定热键触发后立即遮挡屏幕,并禁止一切键盘鼠标输入,这样就再也不用担心自己... 目录1. 概述2. 功能亮点3.代码实现4.使用方法5. 展示效果6. 代码优化与拓展7. 总结1.

使用Python开发一个简单的本地图片服务器

《使用Python开发一个简单的本地图片服务器》本文介绍了如何结合wxPython构建的图形用户界面GUI和Python内建的Web服务器功能,在本地网络中搭建一个私人的,即开即用的网页相册,文中的示... 目录项目目标核心技术栈代码深度解析完整代码工作流程主要功能与优势潜在改进与思考运行结果总结你是否曾经

Linux中的计划任务(crontab)使用方式

《Linux中的计划任务(crontab)使用方式》:本文主要介绍Linux中的计划任务(crontab)使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、前言1、linux的起源与发展2、什么是计划任务(crontab)二、crontab基础1、cro

kotlin中const 和val的区别及使用场景分析

《kotlin中const和val的区别及使用场景分析》在Kotlin中,const和val都是用来声明常量的,但它们的使用场景和功能有所不同,下面给大家介绍kotlin中const和val的区别,... 目录kotlin中const 和val的区别1. val:2. const:二 代码示例1 Java

CSS will-change 属性示例详解

《CSSwill-change属性示例详解》will-change是一个CSS属性,用于告诉浏览器某个元素在未来可能会发生哪些变化,本文给大家介绍CSSwill-change属性详解,感... will-change 是一个 css 属性,用于告诉浏览器某个元素在未来可能会发生哪些变化。这可以帮助浏览器优化