二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year)

本文主要是介绍二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、目的

对于以month、year为分区字段的数据,不是像day字段分区那样每天增量插入更新即可,而是要以部分字段查询、部分字段更新,但是ClickHouse数据库并不适合更新操作,直接使用Kettle的插入更新控件会导致问题,必须曲线实现这个功能

二、Hive的DWS层建表语句和ClickHouse的ADS建表语句

(一) Hive的DWS层建表语句

create  table  if not exists  dws_avg_volume_day_month(scene_name             string      comment '场景名称',device_direction       string      comment '雷达朝向',sum_volume_month       int         comment '每月总流量',count_day              int         comment '每月总天数',avg_volume_day_month   int         comment '月均维度的日平均流量'
)
comment '月均维度的日平均流量表'
partitioned by (month string)
stored as orc
;

(二)ClickHouse的ADS建表语句

create  table  if not exists  hurys_dc_ads.ads_avg_volume_day_month(scene_name             String      comment '场景名称',device_direction       String      comment '雷达朝向',sum_volume_month       int         comment '每月总流量',count_day              int         comment '每月总天数',avg_volume_day_month   int         comment '月均维度的日平均流量',month                  String      comment '月份'
)ENGINE = MergeTree
PARTITION BY (month)
PRIMARY KEY month
order by month
SETTINGS index_granularity = 8192;

对于这类表,每天执行任务时scene_name、device_direction、month等String字段基本并不需要变,只有sum_volume_month、count_day、avg_volume_day_month等Int字段需要每日更新

三、对于插入更新这种需求,一般使用Kettle的增量插入更新

(一)似MySQL关系型数据库

如果似MySQL这种关系型数据库,适合增删改查等事务性操作,那么可以直接用Kettle的插入更新控件

1、Kettle的插入更新任务步骤(样例直接全量插入更新)

(1)关键是插入更新控件配置

2、在MySQL中直接修改表中数据

3、再次运行Kettle任务

4、在MySQL目标表中验证数据

数据量并没增加,只是发生更新

(二)类ClickHouse列式存储数据库

但是,对于ClickHouse这种列式存储数据库,不适合删除、修改等事务性操作,则没法直接使用Kettle的插入更新控件

1、Kettle的插入更新任务步骤

(1)关键是插入更新控件配置

用来查询的关键字是不需要基本不需要变更的字段,一般是主键,如果没有主键则几个字段组合成主键

更新字段是所有字段,不能把更新N,否则相关字段只能插入不能更新

2、用Kettle插入更新控件实现增量插入更新后,如果数据没有更改则运行没有问题

3、但是如果更改部分字段的数据,则会报错

(1)先在Hive中增加一天数据以增加DWS层表中数据

(2)再次运行Kettle任务,则会报错

所以,对于相同的插入更新控件配置,导入MySQL插入更新可以,导入ClickHouse插入更新则失败!

四、对于从Hive到ClickHouse,要实现插入更新的功能,只能先删除ClickHouse表数据再导入数据

(一)删除ClickHouse数据方式

删除ClickHouse数据虽然有几种方法,可以delete,也可以删除分区,也可以truncate,也可以TTL设置保存时间,还可以删除数据文件,但是对这种需要即时删除ClickHouse表中最新的分区数据,无法用delete、TTL等方式实现,而删除分区又太麻烦,刚好这几张表的数据量较少,因此先采用truncate方式,先删除表数据,再全量导入即可

(二)truncate方式实现方法

1、SQL运行

2、在表输出控件中勾选✔剪裁表

这两种方式都试过,都可以!

但是为了避免勾选✔剪裁表后面可能导致问题,还是实现SQL实现稳妥些

五、Kettle任务步骤

(一)执行SQL脚本

(二)hive输入

(三)字段选择

(四)clickhouse输出

(五)保存后运行kettle任务

(六)查看ClickHouse中表数据

六、验证是否实现插入更新功能

(一)删除Hive中1天的数据

(二)运行Kettle任务

(三)查看ClickHouse中表数据

数据量不变,只是2月份的数据发生改变,算是实现了ClickHouse插入更新的功能!

后面如果有更好的方法就再完善,目前能用就行

这篇关于二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/731066

相关文章

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

idea中创建新类时自动添加注释的实现

《idea中创建新类时自动添加注释的实现》在每次使用idea创建一个新类时,过了一段时间发现看不懂这个类是用来干嘛的,为了解决这个问题,我们可以设置在创建一个新类时自动添加注释,帮助我们理解这个类的用... 目录前言:详细操作:步骤一:点击上方的 文件(File),点击&nbmyHIgsp;设置(Setti

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

一文详解如何从零构建Spring Boot Starter并实现整合

《一文详解如何从零构建SpringBootStarter并实现整合》SpringBoot是一个开源的Java基础框架,用于创建独立、生产级的基于Spring框架的应用程序,:本文主要介绍如何从... 目录一、Spring Boot Starter的核心价值二、Starter项目创建全流程2.1 项目初始化(

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

MySQL INSERT语句实现当记录不存在时插入的几种方法

《MySQLINSERT语句实现当记录不存在时插入的几种方法》MySQL的INSERT语句是用于向数据库表中插入新记录的关键命令,下面:本文主要介绍MySQLINSERT语句实现当记录不存在时... 目录使用 INSERT IGNORE使用 ON DUPLICATE KEY UPDATE使用 REPLACE

mysql数据库重置表主键id的实现

《mysql数据库重置表主键id的实现》在我们的开发过程中,难免在做测试的时候会生成一些杂乱无章的SQL主键数据,本文主要介绍了mysql数据库重置表主键id的实现,具有一定的参考价值,感兴趣的可以了... 目录关键语法演示案例在我们的开发过程中,难免在做测试的时候会生成一些杂乱无章的SQL主键数据,当我们