spark之sparkStreaming实时流处理

2024-02-01 11:08

本文主要是介绍spark之sparkStreaming实时流处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、sparkStream官网

http://spark.apache.org/streaming/

2、什么是sparksreaming?

sparkStreamin是一种构建在spark之上的实时计算框架,他扩展了spark处理打过莫流失数据的能力,吞吐量高,容错能力强。(对标hadoop中storm)

3、处理数据方式

    sparkStreaming将输入的数据按照时间为单位进行切片,切除一个个的批,称之为DStream。DStream本质依然为RDD。所以对DStream的处理最终会被翻译成对底层RDD的处理。sparkStreaming对spark串行处理,严格保证顺序,当上一个DStream在当前算子未处理完成时,下一个Dstream会被阻塞(也就是等着),所以SparkStream应该合理分配切片时间和每个算子的复杂程度,尽力让每个算子都可以在切片时间内将数据梳理完。这样可以减少数据可能的堆积以及算子限制的可能,实现最优的并发。sparkStreaming的并发,体现在DStream对应的RDD本身的并发上,而放弃了批之间的并发,这样虽然会造成一定的延时性,但在可靠性、并发控制、程序开发复杂度降低都带来了好处。
优化点:合理设置切片时间

4、容错性

SparkStreaming在读取流数据进入内存时,会保存两个副本,计算只用一个。当出现问题的时候,快速切换到另一个副本。在规定的时间年内进行数据的固化。
由于支持RDD操作,所以本身的容错处理机制也会被继承。

5、sparkStreaming与storm对比

时延:

storm可实现毫秒时延的处理,而每次只处理一条event。spark是秒级别,因为spark是在一个短暂的时间窗口处理多条event,本质是RDD的批处理。

数据吞吐

sparkStreaming中100个节点(每节点4个core),数秒延迟可处理6GB/s的shujuliang 。吞吐量是storm的2~5倍。

所以,spark的优点在于高吞吐、可靠性,以及编程的简易性。

这篇关于spark之sparkStreaming实时流处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/667082

相关文章

Go语言使用Buffer实现高性能处理字节和字符

《Go语言使用Buffer实现高性能处理字节和字符》在Go中,bytes.Buffer是一个非常高效的类型,用于处理字节数据的读写操作,本文将详细介绍一下如何使用Buffer实现高性能处理字节和... 目录1. bytes.Buffer 的基本用法1.1. 创建和初始化 Buffer1.2. 使用 Writ

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

Python结合requests和Cheerio处理网页内容的操作步骤

《Python结合requests和Cheerio处理网页内容的操作步骤》Python因其简洁明了的语法和强大的库支持,成为了编写爬虫程序的首选语言之一,requests库是Python中用于发送HT... 目录一、前言二、环境搭建三、requests库的基本使用四、Cheerio库的基本使用五、结合req

使用Python处理CSV和Excel文件的操作方法

《使用Python处理CSV和Excel文件的操作方法》在数据分析、自动化和日常开发中,CSV和Excel文件是非常常见的数据存储格式,ython提供了强大的工具来读取、编辑和保存这两种文件,满足从基... 目录1. CSV 文件概述和处理方法1.1 CSV 文件格式的基本介绍1.2 使用 python 内

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

SpringBoot操作spark处理hdfs文件的操作方法

《SpringBoot操作spark处理hdfs文件的操作方法》本文介绍了如何使用SpringBoot操作Spark处理HDFS文件,包括导入依赖、配置Spark信息、编写Controller和Ser... 目录SpringBoot操作spark处理hdfs文件1、导入依赖2、配置spark信息3、cont

MyBatis延迟加载的处理方案

《MyBatis延迟加载的处理方案》MyBatis支持延迟加载(LazyLoading),允许在需要数据时才从数据库加载,而不是在查询结果第一次返回时就立即加载所有数据,延迟加载的核心思想是,将关联对... 目录MyBATis如何处理延迟加载?延迟加载的原理1. 开启延迟加载2. 延迟加载的配置2.1 使用

Android WebView的加载超时处理方案

《AndroidWebView的加载超时处理方案》在Android开发中,WebView是一个常用的组件,用于在应用中嵌入网页,然而,当网络状况不佳或页面加载过慢时,用户可能会遇到加载超时的问题,本... 目录引言一、WebView加载超时的原因二、加载超时处理方案1. 使用Handler和Timer进行超

Python中处理NaN值的技巧分享

《Python中处理NaN值的技巧分享》在数据科学和数据分析领域,NaN(NotaNumber)是一个常见的概念,它表示一个缺失或未定义的数值,在Python中,尤其是在使用pandas库处理数据时,... 目录NaN 值的来源和影响使用 pandas 的 isna()和 isnull()函数直接比较 Na

详解Python中通用工具类与异常处理

《详解Python中通用工具类与异常处理》在Python开发中,编写可重用的工具类和通用的异常处理机制是提高代码质量和开发效率的关键,本文将介绍如何将特定的异常类改写为更通用的ValidationEx... 目录1. 通用异常类:ValidationException2. 通用工具类:Utils3. 示例文