flink-拉钩教育-颗粒归仓-待续

2023-10-28 18:59

本文主要是介绍flink-拉钩教育-颗粒归仓-待续,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大数据实时计算领域

    流式及批量分析应用:数据实时采集、计算和下游发送

实时数据仓库和ETL(extract transform load)

 

核心概念

streams:有界流(固定大小的数据),无界流(随时间增加而增长)

state:进行流式计算过程中的信息

time:event time、ingestion time、processing time,判断业务状态是否滞后、延迟的依据

api:不同抽象级别支持开发流式或批处理程序

算子链:多个算子放在一个任务中,由同一个线程执行,减少线程间的切换、消息序列反序列化、数据在缓冲区的交换,减少延迟的同时提高吞吐量

集群中两类进程

  • jobmanager集群管理者,负责调度任务、协调checkpoints、协调故障恢复、收集job状态信息,管理flink集群从节点taskManager
  • taskmanager,jvm进程;执行计算的worker,执行flink job上的一组task,所在节点的管理员,负责将本节点服务器信息:内存、磁盘、任务运行情况告诉jobManager
  • client用户先创建客户端再提交flink工程

3.png

 

task slot:计算资源子集;taskmanager使用独立线程执行task,为控制taskmanager能接受*个task提出task slot概念,一个taskmanager的计算资源被task slot平分,不同的task在不同的slot执行,用来做内存隔离,对cpu不起作用,so同一个jvm的task共享tcp连接,提高运行效率、降低资源消耗

5.png

 

  • 分布式缓存:flink提供分布式缓存类型hadoop,分布式环境中每一个taskmanager保存同一份数据或文件,当前计算节点的task像读取本地文件一样拉取这些配置
  • 故障恢复:配置jobmanager.execution.failover-strategy值可为full(task故障时所有task重启)region局部重启
  • 重启策略:restart-strategy值可为none(任务直接退出)fixed-delay(据用户配置重试次数隔*时间重试)failure-rate(失败率重启,指定时间内超过*次失败了job失败)
  • 并行度:算子级别>执行环节级别>提交任务级别>系统配置级别
  • 水印watermark,解决实时计算中数据乱序问题,本质是datastream中带时间戳的元素,是flink判断迟到数据的标准,也是窗口触发的标记

 

 

 

 

 

这篇关于flink-拉钩教育-颗粒归仓-待续的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/295267

相关文章

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

Flink任务重启策略

概述 Flink支持不同的重启策略,以在故障发生时控制作业如何重启集群在启动时会伴随一个默认的重启策略,在没有定义具体重启策略时会使用该默认策略。如果在工作提交时指定了一个重启策略,该策略会覆盖集群的默认策略默认的重启策略可以通过 Flink 的配置文件 flink-conf.yaml 指定。配置参数 restart-strategy 定义了哪个策略被使用。常用的重启策略: 固定间隔 (Fixe

大数据之Flink(二)

4、部署模式 flink部署模式: 会话模式(Session Mode)单作业模式(Per-Job Mode)应用模式(Application Mode) 区别在于集群的生命周期以及资源的分配方式;以及应用的main方法到底在哪里执行。 4.1、会话模式 先启动一个集群,保持一个会话,在这个会话中通过客户端提交作业。集群启动时资源已经确定,所有提交的作业会晶振集群中的资源。适合规模小、执

是谁还不会flink的checkpoint呀~

1、State Vs Checkpoint State:状态,是Flink中某一个Operator在某一个时刻的状态,如maxBy/sum,注意State存的是历史数据/状态,存在内存中。 Checkpoint:快照点, 是Flink中所有有状态的Operator在某一个时刻的State快照信息/存档信息 一句话概括: Checkpoint就是State的快照 目的:假设作业停止了,下次启动的

Flink读取kafka数据并以parquet格式写入HDFS

《2021年最新版大数据面试题全面开启更新》 《2021年最新版大数据面试题全面开启更新》 大数据业务场景中,经常有一种场景:外部数据发送到kafka中,flink作为中间件消费kafka数据并进行业务处理;处理完成之后的数据可能还需要写入到数据库或者文件系统中,比如写入hdfs中; 目前基于spark进行计算比较主流,需要读取hdfs上的数据,可以通过读取parquet:spark.read

Apache-Flink深度解析-State

来源:https://dwz.cn/xrMCqbk5 Flink系列精华文章合集入门篇: Flink入门Flink DataSet&DataSteam APIFlink集群部署Flink重启策略Flink分布式缓存Flink重启策略Flink中的TimeFlink中的窗口Flink的时间戳和水印Flink广播变量Flink-Kafka-connetorFlink-Table&SQLFlink

Apache-Flink深度解析-Temporal-Table-JOIN

在《JOIN LATERAL》中提到了Temporal Table JOIN,本篇就向大家详细介绍什么是Temporal Table JOIN。在ANSI-SQL 2011 中提出了Temporal 的概念,Oracle,SQLServer,DB2等大的数据库厂商也先后实现了这个标准。Temporal Table记录了历史上任何时间点所有的数据改动,Temporal Table的工作流程如下:

Flink 原理与实现:Operator Chain原理

硬刚大数据系列文章链接: 2021年从零到大数据专家的学习指南(全面升级版) 2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇 2021年从零到大数据专家面试篇之SparkSQL篇 2021年从零到大数据专家面试篇之消息队列篇 2021年从零到大数据专家面试篇之Spark篇 2021年从零到大数据专家面试篇之Hbase篇

Flink原理与实现:如何生成ExecutionGraph及物理执行图

硬刚大数据系列文章链接: 2021年从零到大数据专家的学习指南(全面升级版) 2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇 2021年从零到大数据专家面试篇之SparkSQL篇 2021年从零到大数据专家面试篇之消息队列篇 2021年从零到大数据专家面试篇之Spark篇 2021年从零到大数据专家面试篇之Hbase篇