Spark WordCount使用示例

2024-08-27 12:38
文章标签 使用 示例 spark wordcount

本文主要是介绍Spark WordCount使用示例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

package com.sparktestimport org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}/**
  * 使用scala开发本地测试的Spark WordCount程序
  */
object WordCount {def main(args: Array[String]): Unit = {/**
      * 第一步:创建Spark配置对象SparkConf,设置Spark程序的运行时的配置信息
      * 例如,通过setMaster来设置程序要连接的Spark集群的MasterURL,若设置为local,则代表Spark程序在本地运行
      */
    val conf = new SparkConf()//创建SparkConf对象
    conf.setAppName("WordCount")//设置应用程序的名称,在程序运行的监控界面可以看到名称
    conf.setMaster("local")//此时程序在本地运行,不需要安装Spark集群

    /**
      * 第二步:创建SparkContext对象
      * SparkContextSpark程序所有功能的唯一入口,无论是采用ScalaJavaPythonR等都必须有一个SparkContext
      * sparkContext核心作用:初始化Spark应用程序运行所运行的核心组件,包括DAGSchedulerTaskSchedulerScheduler
      * 同时还会负责Spark程序往Master注册程序等
      * SparkContext是整个Spark应用程序中最为重要的对象
      */
    val sc = new SparkContext(conf)//创建SparkContext,通过传入SparkConf实例来定制Spark运行的具体参数和配置信息

    /**
      * 第三步:根据具体的数据来源,例如HDFSHBaseLocal FSDBS3等,通过SparkContext来创建RDD
      * RDD的创建基本有3中方式:
      * 3.1.根据外部的数据来源,例如HDFS      * 3.2.scala集合
      * 3.3.由其他的RDD操作产生
      * 数据会被RDD划分成为一系列的Partitions,分配到每个Partition的数据属于一个Task的处理范畴
      */
    val lines = sc.textFile("D://spark-1.6.0-bin-hadoop2.6//README.MD",4)//读取本地文件,并设置成一个Partition
//    val linesRDD[String] = sc.textFile("D://spark-1.6.0-bin-hadoop2.6//README.MD",4)//读取本地文件,并设置成一个Partition

    /**
      * 第四步:对初始的RDD进行Transformation级别的处理,例如mapfilter等高阶函数的编程,来进行具体的数据计算
      * 4.1将每一行的字符串拆分成单个的单词
      */
    val words = lines.flatMap{line => line.split(" ")}//对每一行的字符串,进行单词拆分,并把所有行的拆分结果通过flatMap合并成为一个大的单词集合
    /**
      * 第四步:对初始的RDD进行Transformation级别的处理,例如mapfilter等高阶函数的编程,来进行具体的数据计算
      * 4.2在单词拆分的基础上对每个单词实例计数为1,也就是word => (word,1)
      */
    val pairs = words.map(word => (word,1))/**
      * 第四步:对初始的RDD进行Transformation级别的处理,例如mapfilter等高阶函数的编程,来进行具体的数据计算
      * 4.3在单词实例计数为1的基础上统计每个单词在文件中出现的总次数
      */
    val wordCounts = pairs.reduceByKey(_+_)//对相同的Key进行Value的累加(包括localReducer级别同时Reduce
    wordCounts.foreach(wordNumberPair => println(wordNumberPair._1 + " : " + wordNumberPair._2))sc.stop()}
}

这篇关于Spark WordCount使用示例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1111697

相关文章

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

Java调用DeepSeek API的最佳实践及详细代码示例

《Java调用DeepSeekAPI的最佳实践及详细代码示例》:本文主要介绍如何使用Java调用DeepSeekAPI,包括获取API密钥、添加HTTP客户端依赖、创建HTTP请求、处理响应、... 目录1. 获取API密钥2. 添加HTTP客户端依赖3. 创建HTTP请求4. 处理响应5. 错误处理6.

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

Android 悬浮窗开发示例((动态权限请求 | 前台服务和通知 | 悬浮窗创建 )

《Android悬浮窗开发示例((动态权限请求|前台服务和通知|悬浮窗创建)》本文介绍了Android悬浮窗的实现效果,包括动态权限请求、前台服务和通知的使用,悬浮窗权限需要动态申请并引导... 目录一、悬浮窗 动态权限请求1、动态请求权限2、悬浮窗权限说明3、检查动态权限4、申请动态权限5、权限设置完毕后

C++ Primer 多维数组的使用

《C++Primer多维数组的使用》本文主要介绍了多维数组在C++语言中的定义、初始化、下标引用以及使用范围for语句处理多维数组的方法,具有一定的参考价值,感兴趣的可以了解一下... 目录多维数组多维数组的初始化多维数组的下标引用使用范围for语句处理多维数组指针和多维数组多维数组严格来说,C++语言没

在 Spring Boot 中使用 @Autowired和 @Bean注解的示例详解

《在SpringBoot中使用@Autowired和@Bean注解的示例详解》本文通过一个示例演示了如何在SpringBoot中使用@Autowired和@Bean注解进行依赖注入和Bean... 目录在 Spring Boot 中使用 @Autowired 和 @Bean 注解示例背景1. 定义 Stud

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import

oracle DBMS_SQL.PARSE的使用方法和示例

《oracleDBMS_SQL.PARSE的使用方法和示例》DBMS_SQL是Oracle数据库中的一个强大包,用于动态构建和执行SQL语句,DBMS_SQL.PARSE过程解析SQL语句或PL/S... 目录语法示例注意事项DBMS_SQL 是 oracle 数据库中的一个强大包,它允许动态地构建和执行