Flink1.17之前实现JdbcLookup谓词下推

2024-05-16 14:29

本文主要是介绍Flink1.17之前实现JdbcLookup谓词下推,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Flink1.17之前实现JdbcLookup谓词下推

需求背景

Flink在1.17版本之前,flink-connector-jdbc的LookupJoin是不支持on条件下推的,例如on device_id=‘1’,查询SQL中是不会包含device_id='1’的条件,相关issue:https://issues.apache.org/jira/browse/FLINK-32321,在1.19版本该问题已经解决。谓词不下推会导致每次查询的数据量变多,本篇文章主要介绍如何在1.17支持谓词下推

技术实现

在JdbcDynamicTableSource中是已经支持谓词下推到连接器端的,支持连接器的Lookup查询没有将谓词下推应用到SQL语句上,所以我们主要变动如下两个类:

  1. JdbcDynamicTableSource
  2. JdbcRowDataLookupFunction

修改JdbcDynamicTableSource

位置:org.apache.flink.connector.jdbc.table.JdbcDynamicTableSource

目的:在getLookupRuntimeProvider方法中将将谓词下推的查询条件以及参数传入到LookupFunction中。

修改内容:如下代码

    @Overridepublic LookupRuntimeProvider getLookupRuntimeProvider(LookupContext context) {// JDBC only support non-nested look up keysString[] keyNames = new String[context.getKeys().length];for (int i = 0; i < keyNames.length; i++) {int[] innerKeyArr = context.getKeys()[i];Preconditions.checkArgument(innerKeyArr.length == 1, "JDBC only support non-nested look up keys");keyNames[i] = DataType.getFieldNames(physicalRowDataType).get(innerKeyArr[0]);}final RowType rowType = (RowType) physicalRowDataType.getLogicalType();JdbcRowDataLookupFunction lookupFunction =new JdbcRowDataLookupFunction(options,lookupMaxRetryTimes,DataType.getFieldNames(physicalRowDataType).toArray(new String[0]),DataType.getFieldDataTypes(physicalRowDataType).toArray(new DataType[0]),keyNames,rowType,// 将谓词下推的查询条件以及参数传入到LookupFunction中resolvedPredicates,pushdownParams);if (cache != null) {return PartialCachingLookupProvider.of(lookupFunction, cache);} else {return LookupFunctionProvider.of(lookupFunction);}}

修改JdbcRowDataLookupFunction

位置:org.apache.flink.connector.jdbc.table.JdbcRowDataLookupFunction

目的:接受下推的条件及参数,重新拼装SQL,并在执行的时候将参数传入

修改内容:

  1. 构造方法支持接受下推的条件及参数两个变量,拼接条件语句,并将条件中的’?‘参数占位符替换为’:predicate_1’以支持FieldNamedPreparedStatement
 public JdbcRowDataLookupFunction(JdbcConnectorOptions options,int maxRetryTimes,String[] fieldNames,DataType[] fieldTypes,String[] keyNames,RowType rowType,List<String> resolvedPredicates,Object[] pushdownParams) {checkNotNull(options, "No JdbcOptions supplied.");checkNotNull(fieldNames, "No fieldNames supplied.");checkNotNull(fieldTypes, "No fieldTypes supplied.");checkNotNull(keyNames, "No keyNames supplied.");this.connectionProvider = new SimpleJdbcConnectionProvider(options);List<String> nameList = Arrays.asList(fieldNames);DataType[] keyTypes =Arrays.stream(keyNames).map(s -> {checkArgument(nameList.contains(s),"keyName %s can't find in fieldNames %s.",s,nameList);return fieldTypes[nameList.indexOf(s)];}).toArray(DataType[]::new);this.maxRetryTimes = maxRetryTimes;// 添加谓词条件查询的逻辑List<String> predicateNames = new ArrayList<>(resolvedPredicates.size());List<String> fieldNamedPredicates = new ArrayList<>(resolvedPredicates.size());for (String pred : resolvedPredicates) {while (pred.contains("?")){String predicateName = "predicate_"+predicateNames.size();pred = pred.replaceFirst("\\?", ":" + predicateName);predicateNames.add(predicateName);}fieldNamedPredicates.add(String.format("(%s)", pred));}String joinedConditions = fieldNamedPredicates.isEmpty() ? "" : " AND " + String.join(" AND ", fieldNamedPredicates);this.pushdownParams = pushdownParams;this.conditionNames = ArrayUtils.concat(keyNames, predicateNames.toArray(new String[0]));this.query =options.getDialect().getSelectFromStatement(options.getTableName(), fieldNames, keyNames) + joinedConditions;LOG.debug("Query generated for JDBC lookup: " + query);JdbcDialect jdbcDialect = options.getDialect();this.jdbcRowConverter = jdbcDialect.getRowConverter(rowType);this.lookupKeyRowConverter =jdbcDialect.getRowConverter(RowType.of(Arrays.stream(keyTypes).map(DataType::getLogicalType).toArray(LogicalType[]::new)));}
  1. 修改establishConnectionAndStatement方法,在创建Statement是将新生成的conditionNames作为fieldNames传入
    private void establishConnectionAndStatement() throws SQLException, ClassNotFoundException {Connection dbConn = connectionProvider.getOrEstablishConnection();statement = FieldNamedPreparedStatement.prepareStatement(dbConn, query, conditionNames);}
  1. 新增paddingPredicates方法用来想Statement中填充参数
    private FieldNamedPreparedStatement paddingPredicates() throws SQLException {// 进行谓词填充int pushdowParamStartIndex = conditionNames.length - pushdownParams.length;for (int i = pushdowParamStartIndex; i < conditionNames.length; i++) {Object param = pushdownParams[i - pushdowParamStartIndex];if (param instanceof String) {statement.setString(i, (String) param);} else if (param instanceof Long) {statement.setLong(i, (Long) param);} else if (param instanceof Integer) {statement.setInt(i, (Integer) param);} else if (param instanceof Double) {statement.setDouble(i, (Double) param);} else if (param instanceof Boolean) {statement.setBoolean(i, (Boolean) param);} else if (param instanceof Float) {statement.setFloat(i, (Float) param);} else if (param instanceof BigDecimal) {statement.setBigDecimal(i, (BigDecimal) param);} else if (param instanceof Byte) {statement.setByte(i, (Byte) param);} else if (param instanceof Short) {statement.setShort(i, (Short) param);} else if (param instanceof Date) {statement.setDate(i, (Date) param);} else if (param instanceof Time) {statement.setTime(i, (Time) param);} else if (param instanceof Timestamp) {statement.setTimestamp(i, (Timestamp) param);} else {// extends with other types if neededthrow new IllegalArgumentException("Padding predicate failed. Parameter "+ i+ " of type "+ param.getClass()+ " is not handled (yet).");}}return statement;}
  1. 修改lookup方法,在执行查询之前,进行参数填充
    /*** This is a lookup method which is called by Flink framework in runtime.** @param keyRow lookup keys*/@Overridepublic Collection<RowData> lookup(RowData keyRow) {for (int retry = 0; retry <= maxRetryTimes; retry++) {try {statement.clearParameters();// 谓词填充statement = paddingPredicates();statement = lookupKeyRowConverter.toExternal(keyRow, statement);try (ResultSet resultSet = statement.executeQuery()) {ArrayList<RowData> rows = new ArrayList<>();while (resultSet.next()) {RowData row = jdbcRowConverter.toInternal(resultSet);rows.add(row);}rows.trimToSize();return rows;}} catch (SQLException e) {LOG.error(String.format("JDBC executeBatch error, retry times = %d", retry), e);if (retry >= maxRetryTimes) {throw new RuntimeException("Execution of JDBC statement failed.", e);}try {if (!connectionProvider.isConnectionValid()) {statement.close();connectionProvider.closeConnection();establishConnectionAndStatement();}} catch (SQLException | ClassNotFoundException exception) {LOG.error("JDBC connection is not valid, and reestablish connection failed",exception);throw new RuntimeException("Reestablish JDBC connection failed", exception);}try {Thread.sleep(1000L * retry);} catch (InterruptedException e1) {throw new RuntimeException(e1);}}}return Collections.emptyList();}

这篇关于Flink1.17之前实现JdbcLookup谓词下推的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/995168

相关文章

关于集合与数组转换实现方法

《关于集合与数组转换实现方法》:本文主要介绍关于集合与数组转换实现方法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、Arrays.asList()1.1、方法作用1.2、内部实现1.3、修改元素的影响1.4、注意事项2、list.toArray()2.1、方

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

java实现docker镜像上传到harbor仓库的方式

《java实现docker镜像上传到harbor仓库的方式》:本文主要介绍java实现docker镜像上传到harbor仓库的方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 前 言2. 编写工具类2.1 引入依赖包2.2 使用当前服务器的docker环境推送镜像2.2

C++20管道运算符的实现示例

《C++20管道运算符的实现示例》本文简要介绍C++20管道运算符的使用与实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录标准库的管道运算符使用自己实现类似的管道运算符我们不打算介绍太多,因为它实际属于c++20最为重要的

Java easyExcel实现导入多sheet的Excel

《JavaeasyExcel实现导入多sheet的Excel》这篇文章主要为大家详细介绍了如何使用JavaeasyExcel实现导入多sheet的Excel,文中的示例代码讲解详细,感兴趣的小伙伴可... 目录1.官网2.Excel样式3.代码1.官网easyExcel官网2.Excel样式3.代码

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

浏览器插件cursor实现自动注册、续杯的详细过程

《浏览器插件cursor实现自动注册、续杯的详细过程》Cursor简易注册助手脚本通过自动化邮箱填写和验证码获取流程,大大简化了Cursor的注册过程,它不仅提高了注册效率,还通过友好的用户界面和详细... 目录前言功能概述使用方法安装脚本使用流程邮箱输入页面验证码页面实战演示技术实现核心功能实现1. 随机

Golang如何对cron进行二次封装实现指定时间执行定时任务

《Golang如何对cron进行二次封装实现指定时间执行定时任务》:本文主要介绍Golang如何对cron进行二次封装实现指定时间执行定时任务问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录背景cron库下载代码示例【1】结构体定义【2】定时任务开启【3】使用示例【4】控制台输出总结背景

Golang如何用gorm实现分页的功能

《Golang如何用gorm实现分页的功能》:本文主要介绍Golang如何用gorm实现分页的功能方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录背景go库下载初始化数据【1】建表【2】插入数据【3】查看数据4、代码示例【1】gorm结构体定义【2】分页结构体

在Golang中实现定时任务的几种高效方法

《在Golang中实现定时任务的几种高效方法》本文将详细介绍在Golang中实现定时任务的几种高效方法,包括time包中的Ticker和Timer、第三方库cron的使用,以及基于channel和go... 目录背景介绍目的和范围预期读者文档结构概述术语表核心概念与联系故事引入核心概念解释核心概念之间的关系