FlinkX 分片读取原理

2024-08-28 05:32
文章标签 读取 原理 分片 flinkx

本文主要是介绍FlinkX 分片读取原理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

FlinkX 分片读取原理

在数据同步工具中,将数据从源头读取到数据缓存是最重要的一环之一,算是左膀。所以在整个流程,从技术场景上,一定要支持数据的分片与并行读取、流控,从业务角度上,需要支持脏值处理与增量读取。

image-20200523220805741

而今天重点来探讨一下分片读取的原理。

分片原理

分片是将待读取的数据平均分配,尽量的使各个分片任务均衡,不会让数据倾斜从而导致个别节点的同步压力过大(硬件-网卡、cpu等)。

下面是配置了一个读取通道为3的作业配置示例:

"speed": {"channel": 3,"bytes": 0
},

重点类&方法

  • InputSplit (输入分片类)表示输入的分片,并且会在运行过程中进行传输,所以需要进行序列化,是Flink的数据读取核心类。

    image-20200523223305856

  • BaseRichInputFormat#createInputSplits 创建分片,会对错误进行捕获,包装输出,

    image-20200523223659952

    此方法实际是FLink中的InputSplitSource

    image-20200523223808762

    org.apache.flink.api.common.io.InputFormat.java

    image-20200523223909531

    org.apache.flink.core.io.InputSplitSource.java

    由上可以的得知,真实的分片逻辑有具体的实现子类进行提供,将InputSplit结果返回给调度系统,而分片的调度由Flink底层进行提供(因为reader读取数据返回的是DataStream)。如下图所示的关系

    image-20200523224812698

    Flink、FlinkX在分片逻辑中的关系
  • BaseRichInputFormat#createInputSplitsInternal 创建实际的分片抽象方法,由实际driver创建

    image-20200523223248125

通用JDBC 的分片策略

JDBC分片中的几个概念:

  • splitKey
  • numPartitions Math.max(speed.channel,speed.readerChannel)

具体实现逻辑及代码如下:

@Overridepublic InputSplit[] createInputSplitsInternal(int minPart) throws IOException {DistributedJdbcInputSplit[] inputSplits = new DistributedJdbcInputSplit[numPartitions];if(splitKey != null && splitKey.length()> 0){Object[][] parmeter = DbUtil.getParameterValues(numPartitions);for (int j = 0; j < numPartitions; j++)</

这篇关于FlinkX 分片读取原理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1113861

相关文章

Spring Boot循环依赖原理、解决方案与最佳实践(全解析)

《SpringBoot循环依赖原理、解决方案与最佳实践(全解析)》循环依赖指两个或多个Bean相互直接或间接引用,形成闭环依赖关系,:本文主要介绍SpringBoot循环依赖原理、解决方案与最... 目录一、循环依赖的本质与危害1.1 什么是循环依赖?1.2 核心危害二、Spring的三级缓存机制2.1 三

C#中async await异步关键字用法和异步的底层原理全解析

《C#中asyncawait异步关键字用法和异步的底层原理全解析》:本文主要介绍C#中asyncawait异步关键字用法和异步的底层原理全解析,本文给大家介绍的非常详细,对大家的学习或工作具有一... 目录C#异步编程一、异步编程基础二、异步方法的工作原理三、代码示例四、编译后的底层实现五、总结C#异步编程

Go 语言中的select语句详解及工作原理

《Go语言中的select语句详解及工作原理》在Go语言中,select语句是用于处理多个通道(channel)操作的一种控制结构,它类似于switch语句,本文给大家介绍Go语言中的select语... 目录Go 语言中的 select 是做什么的基本功能语法工作原理示例示例 1:监听多个通道示例 2:带

鸿蒙中@State的原理使用详解(HarmonyOS 5)

《鸿蒙中@State的原理使用详解(HarmonyOS5)》@State是HarmonyOSArkTS框架中用于管理组件状态的核心装饰器,其核心作用是实现数据驱动UI的响应式编程模式,本文给大家介绍... 目录一、@State在鸿蒙中是做什么的?二、@Spythontate的基本原理1. 依赖关系的收集2.

Redis分片集群的实现

《Redis分片集群的实现》Redis分片集群是一种将Redis数据库分散到多个节点上的方式,以提供更高的性能和可伸缩性,本文主要介绍了Redis分片集群的实现,具有一定的参考价值,感兴趣的可以了解一... 目录1. Redis Cluster的核心概念哈希槽(Hash Slots)主从复制与故障转移2.

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

解决Java中基于GeoTools的Shapefile读取乱码的问题

《解决Java中基于GeoTools的Shapefile读取乱码的问题》本文主要讨论了在使用Java编程语言进行地理信息数据解析时遇到的Shapefile属性信息乱码问题,以及根据不同的编码设置进行属... 目录前言1、Shapefile属性字段编码的情况:一、Shp文件常见的字符集编码1、System编码

利用Python实现添加或读取Excel公式

《利用Python实现添加或读取Excel公式》Excel公式是数据处理的核心工具,从简单的加减运算到复杂的逻辑判断,掌握基础语法是高效工作的起点,下面我们就来看看如何使用Python进行Excel公... 目录python Excel 库安装Python 在 Excel 中添加公式/函数Python 读取