[1] Flink大数据流式处理利剑: 简介

2023-10-30 11:20

本文主要是介绍[1] Flink大数据流式处理利剑: 简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. Flink介绍

Flink是Apache基金会下的一个顶级项目,其是一个有状态计算的框架;既能处理无边界的数据流,也能处理有边界的数据流;同时Flink提供不同层次的API,从而满足不同的大数据业务处理场景。

那什么是流,任何类型的数据都可以形成一种事件流,比如,信用卡交易、传感器测量、机器日志、网站或移动应用程序上的用户交互记录,所有这些数据都形成一种流。

那么什么是有边界,什么是无边界;官方网站给了一张图和解释:

  • 无界流
    有定义流的开始,但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理,即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理,因为输入是无限的,在任何时候输入都不会完成。处理无界数据通常要求以特定顺序摄取事件,例如事件发生的顺序,以便能够推断结果的完整性。

  • 有界流
    有定义流的开始,也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序,所以并不需要有序摄取。有界流处理通常被称为批处理
    在这里插入图片描述

2. Flink的前世今生

Flink的官方代码地址: https://github.com/apache/flink/releases, 目前其在github上有17800 颗点赞!
在这里插入图片描述
其版本演化历史如下:

  • 2008:柏林理工大学的一个研究性项目Stratosphere
  • 2014-04:Stratosphere贡献给Apache基金会,成为Apache的孵化项目
  • 2014-12:成为Apache顶级项目
  • 2016-03:Flink 1.0.0
  • 2019年1月8日,阿里巴巴以9000万欧元收购该公司!
  • 2021年4月:最新的版本为Flink 1.13.0
  • 2021年09月29日 最新的版本为Flink 1.14.0
  • 2021年12月22日,发布了Apache Flink StateFun Log4j 紧急修复版本

3. Flink特点和应用架构

  • 支持Scala和Java API
  • 支持批流一体
  • 同时支持高吞吐、低延迟、高性能
  • 支持事件时间和处理时间语义,基于事件时间语义能够针对无序事件提供精确、一致的结果;基于处理时间语义能够用在具有极低延迟需求的应用中
  • 支持不同时间语义下的窗口编程
  • 支持有状态计算
  • 支持具有Backpressure功能的持续流模型
  • 提供精确一次(exactly once)的状态一致性保障
  • Flink在JVM内部实现了自己的内存管理
  • 基于轻量级的分布式快照CheckPoint的容错
  • 支持SavePoint机制,手工触发,适用于升级
  • 支持高可用性配置(无单点失效),与k8s、Yarn、Apache Mesos紧密集成。
  • 提供常见存储系统的连接器:Kafka,Elasticsearch等
  • 提供详细、可自由定制的系统及应用指标(metrics)集合,用于提前定位和响应问题

下面是其一个基本的应用架构例子。
在这里插入图片描述
Flink整个组件的层级如下:
在这里插入图片描述

4. 不同框架比较

下图是其与当前业界大数据主流流式计算框架的比较
在这里插入图片描述

5. 案例

  • 阿里巴巴如何利用Flink(Blink)

  • Saiki使用Flink而不用Spark

  • Flink在美团的使用

  • Flink在滴滴的使用

  • Flink在快手的使用

参考文献

https://github.com/apache/flink
https://flink.apache.org/usecases.html
https://flink.apache.org/flink-architecture.html

这篇关于[1] Flink大数据流式处理利剑: 简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/307580

相关文章

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

业务协同平台--简介

一、使用场景         1.多个系统统一在业务协同平台定义协同策略,由业务协同平台代替人工完成一系列的单据录入         2.同时业务协同平台将执行任务推送给pda、pad等执行终端,通知各人员、设备进行作业执行         3.作业过程中,可设置完成时间预警、作业节点通知,时刻了解作业进程         4.做完再给你做过程分析,给出优化建议         就问你这一套下

Thymeleaf:生成静态文件及异常处理java.lang.NoClassDefFoundError: ognl/PropertyAccessor

我们需要引入包: <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-thymeleaf</artifactId></dependency><dependency><groupId>org.springframework</groupId><artifactId>sp

容器编排平台Kubernetes简介

目录 什么是K8s 为什么需要K8s 什么是容器(Contianer) K8s能做什么? K8s的架构原理  控制平面(Control plane)         kube-apiserver         etcd         kube-scheduler         kube-controller-manager         cloud-controlle

【Tools】AutoML简介

摇来摇去摇碎点点的金黄 伸手牵来一片梦的霞光 南方的小巷推开多情的门窗 年轻和我们歌唱 摇来摇去摇着温柔的阳光 轻轻托起一件梦的衣裳 古老的都市每天都改变模样                      🎵 方芳《摇太阳》 AutoML(自动机器学习)是一种使用机器学习技术来自动化机器学习任务的方法。在大模型中的AutoML是指在大型数据集上使用自动化机器学习技术进行模型训练和优化。

jenkins 插件执行shell命令时,提示“Command not found”处理方法

首先提示找不到“Command not found,可能我们第一反应是查看目标机器是否已支持该命令,不过如果相信能找到这里来的朋友估计遇到的跟我一样,其实目标机器是没有问题的通过一些远程工具执行shell命令是可以执行。奇怪的就是通过jenkinsSSH插件无法执行,经一番折腾各种搜索发现是jenkins没有加载/etc/profile导致。 【解决办法】: 需要在jenkins调用shell脚

明明的随机数处理问题分析与解决方案

明明的随机数处理问题分析与解决方案 引言问题描述解决方案数据结构设计具体步骤伪代码C语言实现详细解释读取输入去重操作排序操作输出结果复杂度分析 引言 明明生成了N个1到500之间的随机整数,我们需要对这些整数进行处理,删去重复的数字,然后进行排序并输出结果。本文将详细讲解如何通过算法、数据结构以及C语言来解决这个问题。我们将会使用数组和哈希表来实现去重操作,再利用排序算法对结果

8. 自然语言处理中的深度学习:从词向量到BERT

引言 深度学习在自然语言处理(NLP)领域的应用极大地推动了语言理解和生成技术的发展。通过从词向量到预训练模型(如BERT)的演进,NLP技术在机器翻译、情感分析、问答系统等任务中取得了显著成果。本篇博文将探讨深度学习在NLP中的核心技术,包括词向量、序列模型(如RNN、LSTM),以及BERT等预训练模型的崛起及其实际应用。 1. 词向量的生成与应用 词向量(Word Embedding)