FlinkSQL State的生命周期

2024-04-18 07:36
文章标签 生命周期 state flinksql

本文主要是介绍FlinkSQL State的生命周期,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

FlinkSQL未显示配置state生命周期

FlinkSQL默认没有配置state 的过期时间。也就是说默认情况是FlinkSQL从不清除状态。如果状态后端保存在rocksdb中,直到本地磁盘被打满,服务挂掉,报错如下:

java.io.IOException: [bf3ba881614e80c741fb962c87b7d6fd] Failed to fetch BLOB 12264817074958457302144211122648/p-0b2dedc3a7e6bb642714d445695acf07d6374a9a-3c2bf7d6210f764a50df18d0d6a68d02 from x.x.x.x:25511 and store it under /export/tmp/io_tmp_dirs/blobStore-c0670c38-26c0-43fe-b3b4-9c9de34c4520/incoming/temp-00681209at org.apache.flink.runtime.blob.BlobClient.downloadFromBlobServer(BlobClient.java:168)at org.apache.flink.runtime.blob.AbstractBlobCache.getFileInternal(AbstractBlobCache.java:166)at org.apache.flink.runtime.blob.PermanentBlobCache.getFile(PermanentBlobCache.java:212)at org.apache.flink.runtime.execution.librarycache.BlobLibraryCacheManager$LibraryCacheEntry.createUserCodeClassLoader(BlobLibraryCacheManager.java:297)at org.apache.flink.runtime.execution.librarycache.BlobLibraryCacheManager$LibraryCacheEntry.getOrResolveClassLoader(BlobLibraryCacheManager.java:268)at org.apache.flink.runtime.execution.librarycache.BlobLibraryCacheManager$LibraryCacheEntry.access$1200(BlobLibraryCacheManager.java:233)at org.apache.flink.runtime.execution.librarycache.BlobLibraryCacheManager$DefaultClassLoaderLease.getOrResolveClassLoader(BlobLibraryCacheManager.java:393)at org.apache.flink.runtime.taskmanager.Task.createUserCodeClassloader(Task.java:1158)at org.apache.flink.runtime.taskmanager.Task.doRun(Task.java:715)at org.apache.flink.runtime.taskmanager.Task.run(Task.java:644)at java.lang.Thread.run(Thread.java:748)
Caused by: java.io.IOException: No space left on deviceat java.io.FileOutputStream.writeBytes(Native Method)at java.io.FileOutputStream.write(FileOutputStream.java:326)at org.apache.flink.runtime.blob.BlobClient.downloadFromBlobServer(BlobClient.java:146)... 10 more

FlinkSQL state 生命周期配置

对于有状态计算的流连接和分组聚合操作,用户可以通过 STATE_TTL 来指定算子粒度的生命周期,该方式的状态配置优先级大于【table.exec.state.ttl】作业级别的状态优先级配置。

方式1

作业级别设置

-- 单位:ms,1小时
SET table.exec.state.ttl = 3600000

方式2

流连接时配置

CREATE TABLE my_table (...  
) WITH (  'connector' = '...',  'scan.startup.mode' = 'latest-offset',  'state.ttl' = '3h'  -- 设置状态生存时间为3小时  
);

state.ttl 被设置为 3h,意味着任何状态数据的生存时间超过 3 小时后都会被自动清理

方式3

分组聚合时,hit方式配置

-- 表名作为 hint 键
SELECT /*+ STATE_TTL('orders' = '30d') */ o_orderkey, SUM(o_totalprice) AS revenue
FROM orders
GROUP BY o_orderkey;-- 别名作为 hint 键
SELECT /*+ STATE_TTL('o' = '30d') */ o_orderkey, SUM(o_totalprice) AS revenue
FROM orders AS o
GROUP BY o_orderkey;-- 查询块作为 hint 键
SELECT /*+ STATE_TTL('tmp' = '30d') */ o_orderkey, SUM(o_totalprice) AS revenue
FROM (SELECT o_orderkey, o_totalpriceFROM ordersWHERE o_shippriority = 0) tmp
GROUP BY o_orderkey;

注意:

用户既可以选择表(或视图)名也可以选择别名作为提示键,但在指定别名时需要使用别名。
对于多流连接场景,直接指定每张表的生命周期只会在第一个连接算子的左右流和第二个连接算子的右流上生效(因为流上关联操作是二元的)。如果想为每个连接算子的左右流都指定不同生命周期,需要将查询拆成多个查询块,如下所示。CREATE TEMPORARY VIEW V AS SELECT /*+ STATE_TTL('A' = '1d', 'B' = '12h')*/ * FROM A JOIN B ON...;SELECT /*+ STATE_TTL('V' = '1d', 'C' = '3d')*/ * FROM V JOIN C ON ...;STATE_TTL 提示仅作用在当前查询块上。
当 STATE_TTL 提示键重复时取最后一个值。举例来说,在出现 SELECT /*+ STATE_TTL('A' = '1d', 'A' = '2d')*/ * FROM ... 时,输入 A 的 TTL 值将会取 2d。
当出现多个 STATE_TTL 且提示键重复时取第一个值。举例来说,在出现 SELECT /*+ STATE_TTL('A' = '1d', 'B' = '2d'), STATE_TTL('C' = '12h', 'A' = '6h')*/ * FROM ... 时,输入 A 的 TTL 值将会取 1d。

优先级:

方式2(流连接) 、方式3(分组聚合) > 方式1(作业级别)

这篇关于FlinkSQL State的生命周期的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/914150

相关文章

关于Maven生命周期相关命令演示

《关于Maven生命周期相关命令演示》Maven的生命周期分为Clean、Default和Site三个主要阶段,每个阶段包含多个关键步骤,如清理、编译、测试、打包等,通过执行相应的Maven命令,可以... 目录1. Maven 生命周期概述1.1 Clean Lifecycle1.2 Default Li

Maven(插件配置和生命周期的绑定)

1.这篇文章很好,介绍的maven插件的。 2.maven的source插件为例,可以把源代码打成包。 Goals Overview就可以查看该插件下面所有的目标。 这里我们要使用的是source:jar-no-fork。 3.查看source插件的example,然后配置到riil-collect.xml中。  <build>   <plugins>    <pl

状态模式state

学习笔记,原文链接 https://refactoringguru.cn/design-patterns/state 在一个对象的内部状态变化时改变其行为, 使其看上去就像改变了自身所属的类一样。 在状态模式中,player.getState()获取的是player的当前状态,通常是一个实现了状态接口的对象。 onPlay()是状态模式中定义的一个方法,不同状态下(例如“正在播放”、“暂停

【Vue】关于Vue3的生命周期

目录 Vue3中新增了一个setup生命周期函数:(1) setup执行的时机是在beforeCreate生命周期函数之前执行,在setup函数中是不能通过this来获取实例的;(2) 为了命名的统一性,将beforeDestroy 改名为 beforeUnmount,destroyed 改名为 unmounted 生命周期函数: setup —— 不能通过this来获

09 生命周期

生命周期 beforeCreatecreatedbeforeMountmountedbeforeUpdateupdatedbeforeDestorydestoryed 辣子鸡:香辣入口,犹如吃了炫迈一样 - - - 根本停不下来 <!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><meta name="viewport"

Maven生命周期:深入理解构建过程

目录 1. Maven生命周期简介 2. 默认生命周期的阶段 3. 清理生命周期 4. 站点生命周期 5. Maven生命周期的灵活性 6. 结论         在Java开发中,Maven是一个不可或缺的工具,它通过自动化项目的构建、依赖管理和文档生成等任务,极大地提高了开发效率。Maven的核心之一是其构建生命周期,它定义了项目构建过程中的一系列阶段。在这篇文章中,我们将深

【前端】animation动画以及利用vue制作简单的透明度改变动画,包含vue生命周期实现

一. 问题描述 想做一个文字透明度从1到0然后再从0到1的css动画。 二. 代码写法 2.1 animation写法 2.1.1 animation属性key 2.1.2 代码展示 <!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><meta name="viewport" content="width=de

【C++多线程编程】 线程安全与对象生命周期管理

目录 类的线程安全 实现线程安全  构造函数在多线程中的安全性 析构函数多线程环境的安全 智能指针实现多线程安全  shared_ptr 非完全线程安全 shared_ptr可能导致对象生命周期延长 const引用可以减少传递shared_ptr开销 shared_ptr 智能指针块模块的优点  析构所在线程问题分析  RAII的使用 enable_shared_from_

【ReactJS】通过一个例子学习React组件的生命周期

源代码 <!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><meta http-equiv="X-UA-Compatible" content="ie=edge"><title>Reac

1.1 Avtivity的生命周期全面分析

本文将Activity的生命周期分为两部分内容,一部分是典型情况下的生命周期,另一部分是异常情况下的生命周期。所谓典型情况下的生命周期,是指在有用户参与的情况下,Activity所经过的生命周期的改变;而异常情况下的生命周期是指在Activity被系统回收或者由于当前设备的Configuration发生改变从而导致Activity被销毁重建,异常情况下的生命周期的关注点和典型情况下略有不同。 1