Spark Streaming(二十五)初始化StreamingContext、初识DStream

本文主要是介绍Spark Streaming(二十五)初始化StreamingContext、初识DStream,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

初始化StreamingContext

初始化一个SparkStreaming程序,必须创建StreamingContext对象,因为它是SparkStreaming处理流式数据的入口。

 def main(args: Array[String]): Unit = {//初始化SparkConfval conf = new SparkConf().setMaster("local[2]").setAppName("Streamingtest")/*** 初始化StreamingContext,并设置2秒一次批处理* appName就是展示在SparkUI上应用的名称* master:就是Spark、Mesos、Yarn cluster Url,或者指定为"local[*]"运行在本地、实际应用程序运行在集群上,*         我们不应该将master硬编码在程序中,但是作为本地测试,你可以用"local[*]"这种方式,如果提交到集群上*         不要用这种方式,要按照实际的环境有外部传入该参数。*/val streaming = new StreamingContext(conf, Seconds(2))

一个StreamingContext对象也可以由已经存在的SparkContext进行创建

 def main(args: Array[String]): Unit = {//创建SparkConfval conf = new SparkConf().setAppName("").setMaster("local[2]")//创建SparkContextval sc = new SparkContext(conf)//由已经存在的SparkContext创建StreamingContextval streaming = new StreamingContext(sc, Seconds(2))}

SparkStreaming编码开发流程

StreamingContext创建完成以后,那么我们就会进行一下步骤,开始应用程序的开发

  • 定义一个输入源来创建DStream
  • 定义DStream的转换操作和输出操作
  • 开始等待数据的输入和处理streamingContext.start()
  • 等待正在处理的程序停止streamingContext.awaitTerminathion()
  • 通过stremingContext.stop()手动停止处理程序

SparkStreaming开发过程要注意的事项

  • 当一个StreamingContext已经启动了,就不能添加或者设置新的流式计算。也就是在streamingContext.start()的代码后边就不能再利用streamingContext创建新的流式计算。
  • StreamingContext停止后,就会无法启动。也就是说在streamingContext.stop()后边在此执行streamingContext.start()是无效的。
  • 在虚拟机中只能同时激活一个StreamingContext
  • StreamingContextstop方法,也会停止SparkContext,如果执行停止StreamingContext,只需要在stop方法内指定是否终止SparkContext,默认是true,需要指定为falsestreamingContext.stop(false)
  • 只要在创建下一个StreamingContext的时候停止前一个StreamingContext(不停止SparkContext),就可以重复利用SparkContext创建多个StreamingContext

离散流(DStream)

DStream(Discretized Stream)SparkStreaming提供的一种抽象。它是一种连续的数据流,它可以使从接收到的输入数据流 ,也可以是通过转换输入流后得到的数据流。数据流的内部就是一系列的RDDDStream中每个RDD都是特定时间间隔内的数据。操作数据流最终都会转换最底层的RDD上的操作。如图所示
在这里插入图片描述

这篇关于Spark Streaming(二十五)初始化StreamingContext、初识DStream的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/753069

相关文章

SpringBoot操作spark处理hdfs文件的操作方法

《SpringBoot操作spark处理hdfs文件的操作方法》本文介绍了如何使用SpringBoot操作Spark处理HDFS文件,包括导入依赖、配置Spark信息、编写Controller和Ser... 目录SpringBoot操作spark处理hdfs文件1、导入依赖2、配置spark信息3、cont

JVM 的类初始化机制

前言 当你在 Java 程序中new对象时,有没有考虑过 JVM 是如何把静态的字节码(byte code)转化为运行时对象的呢,这个问题看似简单,但清楚的同学相信也不会太多,这篇文章首先介绍 JVM 类初始化的机制,然后给出几个易出错的实例来分析,帮助大家更好理解这个知识点。 JVM 将字节码转化为运行时对象分为三个阶段,分别是:loading 、Linking、initialization

c++的初始化列表与const成员

初始化列表与const成员 const成员 使用const修饰的类、结构、联合的成员变量,在类对象创建完成前一定要初始化。 不能在构造函数中初始化const成员,因为执行构造函数时,类对象已经创建完成,只有类对象创建完成才能调用成员函数,构造函数虽然特殊但也是成员函数。 在定义const成员时进行初始化,该语法只有在C11语法标准下才支持。 初始化列表 在构造函数小括号后面,主要用于给

Linux操作系统 初识

在认识操作系统之前,我们首先来了解一下计算机的发展: 计算机的发展 世界上第一台计算机名叫埃尼阿克,诞生在1945年2月14日,用于军事用途。 后来因为计算机的优势和潜力巨大,计算机开始飞速发展,并产生了一个当时一直有效的定律:摩尔定律--当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。 那么相应的,计算机就会变得越来越快,越来越小型化。

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering) Power Iteration Clustering (PIC) 是一种基于图的聚类算法,用于在大规模数据集上进行高效的社区检测。PIC 算法的核心思想是通过迭代图的幂运算来发现数据中的潜在簇。该算法适用于处理大规模图数据,特别是在社交网络分析、推荐系统和生物信息学等领域具有广泛应用。Spa

docker学习系列(一)初识docker

在第一版本上线之后公司,我们决定将之前使用的开源api文档项目转移到本公司的服务器之上,之前用的是showdoc,showdoc利用的是php技术,作为java程序员表示需要快速部署php环境以及apach容器都需要时间,所以采用第二种方法,即利用docker进行快速部署(虽然学习成本也不比php少)。 一、docker简介 docker的官网是https://www.docker.com,

框架template初识

框架初识 框架就是一个别人帮我们搭好的舞台,造好了很多现成的工具供我们使用,让开发过程更快速、简洁。 Gin框架介绍 Gin 是一个用 Go (Golang) 编写的 HTTP Web 框架。 Gin是一个用Go语言编写的web框架。它是一个类似于martini 但拥有更好性能的API框架, 由于使用了 httprouter,速度提高了近40倍。 第一个Gin示例 package mai

@postconstruct初始化的操作

从Java EE 5规范开始,Servlet中增加了两个影响Servlet生命周期的注解(Annotion);@PostConstruct和@PreDestroy。这两个注解被用来修饰一个非静态的void()方法 。写法有如下两种方式: @PostConstruct Public void someMethod() {}

spring和tomcat初始化的类和注解

1.InitializingBean接口为bean提供了初始化方法的方式,它只包括afterPropertiesSet方法,凡是继承该接口的类,在初始化bean的时候会执行该方法。 spring为bean提供了两种初始化bean的方式,实现InitializingBean接口,实现afterPropertiesSet方法,或者在配置文件中同过init-method指定,两种方式可以同时使用 实

【数据结构】--初识泛型

1. 包装类 在Java中,由于基本类型不是继承自Object,为了在泛型代码中可以支持基本类型,Java给每个基本类型都对应了一个包装类型。 1.1 基本数据类型和对应的包装类 除了 Integer 和 Character, 其余基本类型的包装类都是首字母大写。 1.2 (自动)装箱和(自动)拆箱 装箱(装包): 把 基本数据类型 变为 包装类类型 的过程 叫做装箱。 反汇编指