Flink 原理与实现:再谈反压

2024-05-12 23:38

本文主要是介绍Flink 原理与实现:再谈反压,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

扫码关注公众号免费阅读全文:冰山烈焰的黑板报
在这里插入图片描述

Flink 原理与实现:如何处理反压问题 这一篇文章中我们讲了 Flink 的反压机制。本文我将更加详细的介绍先后采用的两种反压机制:

  • 基于 TCP 的反压(< 1.5)
  • 基于信用的反压(≥ 1.5)

1. 逻辑视图

Flink 网络栈是 flink-runtime 的核心组件,所有来自 TaskManager 的工作单元(子任务)都通过它来互相连接。你的流式传输数据流都要经过网络栈,所以它对 Flink 作业的性能表现(包括吞吐量和延迟指标)至关重要。与通过 Akka 使用 RPC 的 TaskManager 和 JobManager 之间的协调通道相比,TaskManager 之间的网络栈依赖的是更底层的,基于 Netty 的 API。下面是它的逻辑视图:
Flink 网络栈逻辑视图
它抽象了以下三种不同的配置:

  • Subtask output type (ResultPartitionType):
    • pipelined (bounded or unbounded):一旦生成数据就一条一条向下游发送,要么作为有界流,要么作为无界流。
    • blocking:只有当所有的数据都产出之后,才会向下游发送。
  • Scheduling type:
    • all at once (eager):同时部署 Job 所有的 subtask(对于流式应用)。
    • next stage on first output (lazy):一旦生产者有输出数据的时候,就部署下游的 task。
    • next stage on complete output:当任一或全部生产者生成了完整的数据集,就部署下游的 task。
  • Transport:
    • high throughput:Flink 采用缓存一批数据在 network buffer 中,并一起发送它们的方式,代替逐条发送数据的方式。以此降低单条数据的成本,提升吞吐量。
    • low latency via buffer timeout:通过降低发送未攒满 buffer 的数据,牺牲一定的吞吐以换区更低的延时。

现在我们详细说一下 output 和 scheduling types。首先,我们需要知道 subtask 的 output 和 scheduling types 是密地交织在一起,只有这两种类型的特定组合才是有效的。

Pipelined result partitions 是流式输出,需要一个正在工作的 subtask 发送数据。下游的 task 可以在结果产出之前或第一次输出时调度。批处理作业生成有界的结果,而流作业生成无界的结果。

批作业也可以采用阻塞模式,取决于使用的 operator 和 connection 模式。在这种情况下,必须先生成完整的结果,然后才能调度接收任务。这样一来,批处理作业的效率会更高,需要的资源更少。

下表总结了所有有效组合:

输出类型调度类型应用到…
pipelined, unboundedpipelined, unboundedStreaming jobs
pipelined, unboundednext stage on first outputn/a (目前 Flink 尚未使用)
pipelined, boundedall at oncen/a
pipelined, boundednext stage on first outputBatch jobs
blockingnext stage on complete outputBatch jobs

2. TCP 流量控制

在详细介绍基于 TCP 的反压之前,我们需要先了解一下 TCP 流量控制(Flow Control,即流控)。TCP 的首部如下:
TCP 首部
这里仅介绍四个比较重要的概念:

  1. Sequence Number:是包的序号,用来解决网络包乱序(reordering)问题。
  2. Acknowledgement Number:就是ACK——用于确认收到,用来解决不丢包的问题。
  3. Window:又叫 Advertised-Window,也就是著名的滑动窗口(Sliding Window),用于解决流控的。
  4. TCP Flag :也就是包的类型,主要是用于操控TCP的状态机的

假设现在有个 Sender 其发送窗口初始大小为 3,Receiver 其接收窗口固定大小为 5。通过 TCP 流控可以看到它的消息发送过程如下图:
TCP 流控图
可以看到,当 User Consumer 的消费速度赶不上 Sender 的发送速度时,Receiver 的窗口被数据填满,此时会根据 TCP 首部的 Advertised-Window 通知 Sender 降低消息发送速度,从而达到流量控制的目的。

3. 基于 TCP 的反压(< 1.5)

Flink 原理与实现:如何处理反压问题 这篇文章已有介绍,这里不做赘述,只补充一点。TaskManager 内的 subtask 造成反压,也会影响同 TaskManager 内的其他 subtask。如下图 subtask B.4 过载对数据链路造成反压,并阻止 subtask B.3 接收和处理数据,即使它仍然有可用容量。
基于 TCP 的反压

4. 基于信用的反压(≥ 1.5)

基于信用的反压(Credit-based Flow Control)可以确保正在传输的数据在接收端都有能力处理。这是在 Flink 现有机制上的自然扩展。现在每个远程 InputChannel 都有一组独占的缓存区(exclusive buffer),而不是使用共享的本地缓存区。相应地,本地缓存区被称为浮动缓存区(float buffer),因为它们是浮动的,并可用于每个 InputChannel 。

接收方将缓冲区的可用性,称为发送方的信用(1 buffer = 1 credit)。每个 ResultSubpartition 都会跟踪自己的通道信用值(channel credit)。如果有 credit 可用,那么buffer 仅转发到较低的网络栈,每发送一个 buffer,credit 就会减一。除了 buffer 之外,我们还会发送当前 backlog 的大小,从而指定在它 Subpartition 中队列中等待的 buffer 数量。接收端通过使用它,来请求适量的 float buffer,以便更快地处理 backlog。接收端会尝试获取和 backlog 的大小一样多的 float buffer,但有时事与愿违,它可能获取一些 float buffer,也可能一点都获取不到。该接收端将使用检索到的缓冲区,并侦听进一步可用的缓冲区。
基于信用的反压
Credit-based Flow Control 使用 taskmanager.network.memory.buffers-per-channel (强制的)指定独占缓存区的大小,使用 taskmanager.network.memory.floating-buffers-per-gate(可选的)指定本地缓存区的大小,通过这两个参数实现没有流控时相同缓存的限制。这两个参数的默认值可以使流控时理论上的最大吞吐量至少和非流控时的一样高。你可能需要根据网络带宽和实际的传输往返时间进行调节。

4. 总结

通过 Credit-based Flow Control,接收端和发送端之间缓存的数据更少了,我们可以更早的遇到反压。其实,缓存更多的数据也没太大的作用,如果你想继续使用流控,可以使用 taskmanager.network.memory.floating-buffers-per-gate 增加 float buffer 的数量。以下是 Credit-based Flow Control 的优缺点。

优点缺点
在多路复用连接中更好的利用数据倾斜的资源额外的 credit-announce 信息
改进 checkpoint 对齐额外的 backlog-announce 信息(附带在缓存消息中,几乎没有开销)
更少的内存使用(网络层的数据更少)潜在的往返延迟

这篇关于Flink 原理与实现:再谈反压的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/984065

相关文章

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

el-select下拉选择缓存的实现

《el-select下拉选择缓存的实现》本文主要介绍了在使用el-select实现下拉选择缓存时遇到的问题及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录项目场景:问题描述解决方案:项目场景:从左侧列表中选取字段填入右侧下拉多选框,用户可以对右侧

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

python实现自动登录12306自动抢票功能

《python实现自动登录12306自动抢票功能》随着互联网技术的发展,越来越多的人选择通过网络平台购票,特别是在中国,12306作为官方火车票预订平台,承担了巨大的访问量,对于热门线路或者节假日出行... 目录一、遇到的问题?二、改进三、进阶–展望总结一、遇到的问题?1.url-正确的表头:就是首先ur

C#实现文件读写到SQLite数据库

《C#实现文件读写到SQLite数据库》这篇文章主要为大家详细介绍了使用C#将文件读写到SQLite数据库的几种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录1. 使用 BLOB 存储文件2. 存储文件路径3. 分块存储文件《文件读写到SQLite数据库China编程的方法》博客中,介绍了文

Redis主从复制实现原理分析

《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实

JAVA利用顺序表实现“杨辉三角”的思路及代码示例

《JAVA利用顺序表实现“杨辉三角”的思路及代码示例》杨辉三角形是中国古代数学的杰出研究成果之一,是我国北宋数学家贾宪于1050年首先发现并使用的,:本文主要介绍JAVA利用顺序表实现杨辉三角的思... 目录一:“杨辉三角”题目链接二:题解代码:三:题解思路:总结一:“杨辉三角”题目链接题目链接:点击这里

基于Python实现PDF动画翻页效果的阅读器

《基于Python实现PDF动画翻页效果的阅读器》在这篇博客中,我们将深入分析一个基于wxPython实现的PDF阅读器程序,该程序支持加载PDF文件并显示页面内容,同时支持页面切换动画效果,文中有详... 目录全部代码代码结构初始化 UI 界面加载 PDF 文件显示 PDF 页面页面切换动画运行效果总结主

SpringBoot实现基于URL和IP的访问频率限制

《SpringBoot实现基于URL和IP的访问频率限制》在现代Web应用中,接口被恶意刷新或暴力请求是一种常见的攻击手段,为了保护系统资源,需要对接口的访问频率进行限制,下面我们就来看看如何使用... 目录1. 引言2. 项目依赖3. 配置 Redis4. 创建拦截器5. 注册拦截器6. 创建控制器8.