2024年大数据领域的主流分布式计算框架有哪些

2024-06-16 21:44

本文主要是介绍2024年大数据领域的主流分布式计算框架有哪些,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Apache Spark

适用场景

以批处理闻名,有专门用于机器学习的相关类库进行复杂的计算,有SparkSQL可以进行简单的交互式查询,也可以使用DataSet,RDD,DataFrame进行复杂的ETL操作。

关键词

  • 处理数据量大
  • 批计算
  • 微批计算(可以理解成支持流计算)
  • 机器学习(丰富的类库)
  • SQL查询(操作简单)
  • 内存计算(计算效率高,相对MapReduce而言)
  • 内存开销大(通过SparkConf配置driver/executor参数,详见Spark内存管理模型,主要依赖于JVM进行内存回收)
  • 抽象出了RDD进行操作,开发相对简单,又可以写比SQL复杂的ETL操作

社区活跃程度:非常活跃

近一年,2023.6至2024.6,大约每周70个commit左右
在这里插入图片描述

Apache Flink

适用场景

具有高吞吐量、低延迟、容错性强等特点。比如实时告警系统,日志实时分析,金融交易异常检测。

关键词

  • 流计算(天生设计是为了进行流计算,不像Spark通过微批来实现流计算)
  • 事件驱动,响应快
  • 流批一体,通过统一的编程模型,可以实现开发一套代码,同时进行流处理、批处理
  • 数据集成,Flink支持多种数据源,如Kafka,HDFS,Cassandra,ElasticSearch

社区活跃程度:活跃

近一年,2023.6至2024.6,大约每周30个commit左右
在这里插入图片描述

Apache Storm

适用场景

具有高吞吐量、低延迟、容错性强等特点。比如实时告警系统,日志实时分析,金融交易异常检测。

关键词

  • 流计算,实时处理
  • 可靠性和容错性,节点故障自动重启和恢复任务
  • 水平扩展
  • 数据集成,支持多种数据源,如Kafka,HDFS,Cassandra

社区活跃程度:不活跃

近一年,2023.6至2024.6,大约每周不到10个commit
在这里插入图片描述

Apache Beam

适用场景

beam侧重点是一种编程模型,编写一次,可以运行在不同的流批引擎,有点像Flink提供的流批一体能力。减轻了开发人员学习各个引擎的特点,调优方法,让开发人员聚焦于业务逻辑。如果更侧重于性能,那毫不犹豫地应该选择具体的引擎比如Spark,Flink。但如果是为了更加通用的实现业务逻辑,可以使用Beam,避免将大量时间花费对各个引擎的学习。

关键词

  • 统一的编程模型:用于定义和执行大规模的数据处理任务。它旨在提供一种通用的编程接口,可以在不同的执行引擎上运行
  • 批处理和流处理:提供统一的编程模型来处理有界和无界的数据集。
  • 跨平台执行:Beam 的跨平台执行能力使得用户可以选择最适合其需求的执行引擎,并在不同执行引擎之间轻松迁移。
  • 窗口化和触发器:Beam 的窗口化和触发器机制使得处理无界数据流更加灵活和高效,适用于实时数据处理和分析。

社区活跃程度:活跃

近一年,2023.6至2024.6,大约每周50个commit
在这里插入图片描述

总结

就以上介绍的4个框架来说。
如果要进行机器学习,毫不犹豫地选择Spark。
如果不需要流计算,或者流计算要求不高,可以使用Spark,比Flink发展更成熟。
如果业务场景明确需要流计算(实时,低延迟,高吞吐量),毫不犹豫地选择Flink。
如果想聚焦业务逻辑,对性能要求不高,可以使用Beam。
Storm几乎可以说完全被Flink超越了,社区活跃程度Flink远超过Storm。从性能上来看,可以见美团技术写的这篇博客(https://tech.meituan.com/2017/11/17/flink-benchmark.html)该篇文章对Flink和Storm进行了性能测试,从不同场景,数据量进行了测试。如果没有历史包袱,从头选择流处理框架,可以毫不犹豫地选择Flink。

这篇关于2024年大数据领域的主流分布式计算框架有哪些的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1067633

相关文章

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Python GUI框架中的PyQt详解

《PythonGUI框架中的PyQt详解》PyQt是Python语言中最强大且广泛应用的GUI框架之一,基于Qt库的Python绑定实现,本文将深入解析PyQt的核心模块,并通过代码示例展示其应用场... 目录一、PyQt核心模块概览二、核心模块详解与示例1. QtCore - 核心基础模块2. QtWid

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解