春城无处不飞花，小白带你侃SparkStreaming(原理引入篇)

本文主要是介绍春城无处不飞花，小白带你侃SparkStreaming(原理引入篇)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

介绍完了SparkSQL，接下来让我们推开SparkStreaming的大门，接收新知识的洗礼。跟刚入坑SparkSQL时一样，让我们来回顾一下Spark的内置模块。
在这里插入图片描述
相信勤奋好学的大家肯定都还记得的对吧，那么接下来我们就要正式开始学习SparkStreaming咯~

码字不易，先赞后看，养成习惯!
在这里插入图片描述

文章目录

- 第一章 Spark Streaming引入
- - 1.1 新的场景需求
  - 1.2 Spark Streaming介绍
  - 1.3 实时计算所处的位置
- 第二章 SparkStreaming原理
- - 2.1 SparkStreaming原理
  - - 2.1.1 整体流程
    - 2.1.2 数据抽象
  - 2.2 DStream相关操作
  - - 2.2.1 Transformations
    - 2.2.2 Output/Action
  - 2.3 总结

第一章 Spark Streaming引入

1.1 新的场景需求

集群监控

一般的大型集群和平台, 都需要对其进行监控的需求。要针对各种数据库, 包括 MySQL, HBase 等进行监控；要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等；要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘等。
在这里插入图片描述

双11实时交易数据大屏

在这里插入图片描述

智慧公厕

1.2 Spark Streaming介绍

官网
http://spark.apache.org/streaming/
概述

Spark Streaming是一个基于Spark Core之上的实时计算框架，可以从很多数据源消费数据并对数据进行实时的处理，具有高吞吐量和容错能力强等特点。
在这里插入图片描述

Spark Streaming的特点

1.易用

可以像编写离线批处理一样去编写流式程序，支持java/scala/python语言。

2.容错

SparkStreaming在没有额外代码和配置的情况下可以恢复丢失的工作。

3.易整合到Spark体系

流式处理与批处理和交互式查询相结合。

1.3 实时计算所处的位置

在这里插入图片描述
我们也可以看到SparkStreaming也是做分布式实时计算的，但具体其原理是什么，如何操作？具体讲解请往下看。

第二章 SparkStreaming原理

2.1 SparkStreaming原理

2.1.1 整体流程

Spark Streaming中，会有一个接收器组件Receiver，作为一个长期运行的task跑在一个Executor上。Receiver接收外部的数据流形成input DStream

DStream会被按照时间间隔划分成一批一批的RDD，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。时间间隔的大小可以由参数指定，一般设置在500毫秒到几秒之间

对DStream进行操作就是对RDD进行操作，计算处理的结果可以传给外部系统。

Spark Streaming的工作流程像下面的图所示一样，接收到实时数据后，给数据分批次，然后传给Spark Engine（引擎）处理最后生成该批次的结果。
在这里插入图片描述

2.1.2 数据抽象

Spark Streaming的基础抽象是DStream(Discretized Stream，离散化数据流，连续不断的数据流)，代表持续性的数据流和经过各种Spark算子操作后的结果数据流

可以从以下多个角度深入理解DStream

1.DStream本质上就是一系列时间上连续的RDD

在这里插入图片描述
2.对DStream的数据的进行操作也是按照RDD为单位来进行的

3.容错性

底层RDD之间存在依赖关系，DStream直接也有依赖关系，RDD具有容错性，那么DStream也具有容错性

如图:

        每一个椭圆形表示一个RDD
        椭圆形中的每个圆形代表一个RDD中的一个Partition分区
        每一列的多个RDD表示一个DStream(图中有三列所以有三个DStream)
        每一行最后一个RDD则表示每一个Batch Size所产生的中间结果RDD

在这里插入图片描述