银行数仓项目实战（二）--数据采集（Kettle的抽取(E)转换(T)加载(L)）

2024-06-19 11:04

文章标签 实战数据加载项目转换采集银行数仓 kettle 抽取

本文主要是介绍银行数仓项目实战（二）--数据采集（Kettle的抽取(E)转换(T)加载(L)），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Kettle安装

Kettle又名PDI
要求电脑中有Java环境。
下载Kettle9.0的安装包，如有需要可以联系up私发噢。
注意！！！
解压路径不能有中文，空格
解压后双击spoon.bat即可使用
链接数据库需要相应的驱动，Oracle的驱动是OJDBC，导入到相应的文件夹中
在这里插入图片描述

之后需要重启Kettle

ETL：Extract（抽取）-translate（转换）-load（加载）
Kettle是一个ETL工具。

Kettle使用

在这里插入图片描述
打开Kettle
创建资料库
点击connect
选择Other Repositories

1.Database Repository

是数据库资料库（需要连接数据库）
点击Create
输入对应的数据库实例即可
Oracle如下：
在这里插入图片描述
不推荐

2.File Repository

文件资料库
开始创建
起名
选择路径（路径不能有中文！！！！！）
点击finish
接下来做的所有东西都存到新建的文件夹中
连接即可

Kettle可以将数据从源抽取到目标
首先需要Kettle能连接源，又能连接目标

Kettle连接数据库

文件-新建-转换
在这里插入图片描述
右键DB连接，新建连接，添加源数据库
新建DB连接，添加目标数据库

输入代表源
输出代表目标
在这里插入图片描述
从输入中，拖出表输入到页面

同样，添加表输出
按住shift连接表输入输出。双击输入输出，根据源，目标对应的数据库实例添加表。
在表输出中选择数据库字段，将其与源一一对应
表字段是目标表的字段，流字段是源表的字段。需要一一对应，否则数据与字段有可能不对应
在这里插入图片描述
添加完之后点击开始即可抽取数据到目标中。
这就完成了数据的E L 即抽取，加载

转换

在这里插入图片描述
都是对应的SQL语句，自己脑海里对应一下

concat fields 合并列

将empname，job合并添加到目标表中
1.首先修改目标表结构

alter table emp72 add ej varchar2(50)

通过Kettle将数据插入
在这里插入图片描述
将concat fields添加到线中
双击

添加如下
运行即可

值映射

在这里插入图片描述
得到结果如下

去重

如果使用去除重复记录按钮去重，需要先排序，不然会出错
在这里插入图片描述
去重完的结果是排序后的
还可以使用唯一行去重，去重的结果是未排序的，但这个去重方法效率更高，如下图

列转行

同样，需要先将表进行排序
在这里插入图片描述
双击列转行

将
需要转行的字段值写进目标字段
将
内容写进数据字段
再
起别名（关键字值）

列拆分多行

在这里插入图片描述
双击列拆分多行，选择要拆分的字段，设置分割符，设置新字段名称

各个组件的用法都跟上面的差不多
注意输入输出后，该组件后面的步骤都需要改变输入字段。（手动匹配中删除之前的对应关系，把新的字段名将其对应）

这篇关于银行数仓项目实战（二）--数据采集（Kettle的抽取(E)转换(T)加载(L)）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1074846。 23002807@qq.com

相关文章

springboot项目如何开启https服务

springboot项目如何开启https服务

《springboot项目如何开启https服务》：本文主要介绍springboot项目如何开启https服务方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录springboot项目开启https服务1. 生成SSL证书密钥库使用keytool生成自签名证书将

阅读更多...

SpringBoot使用GZIP压缩反回数据问题

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》：本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么，可以干什么？3、Spr

阅读更多...

将Java项目提交到云服务器的流程步骤

将Java项目提交到云服务器的流程步骤

《将Java项目提交到云服务器的流程步骤》所谓将项目提交到云服务器即将你的项目打成一个jar包然后提交到云服务器即可,因此我们需要准备服务器环境为：Linux+JDK+MariDB（MySQL）+Gi... 目录1. 安装 jdk1.1 查看 jdk 版本1.2 下载 jdk2. 安装 mariadb(my

阅读更多...

C#实现将Excel表格转换为图片(JPG/ PNG)

C#实现将Excel表格转换为图片(JPG/ PNG)

《C#实现将Excel表格转换为图片(JPG/PNG)》Excel表格可能会因为不同设备或字体缺失等问题,导致格式错乱或数据显示异常,转换为图片后,能确保数据的排版等保持一致,下面我们看看如何使用C... 目录通过C# 转换Excel工作表到图片通过C# 转换指定单元格区域到图片知识扩展C# 将 Excel

阅读更多...

C++使用printf语句实现进制转换的示例代码

C++使用printf语句实现进制转换的示例代码

《C++使用printf语句实现进制转换的示例代码》在C语言中,printf函数可以直接实现部分进制转换功能,通过格式说明符（formatspecifier）快速输出不同进制的数值,下面给大家分享C+... 目录一、printf 原生支持的进制转换1. 十进制、八进制、十六进制转换2. 显示进制前缀3. 指

阅读更多...

Python列表去重的4种核心方法与实战指南详解

Python列表去重的4种核心方法与实战指南详解

《Python列表去重的4种核心方法与实战指南详解》在Python开发中,处理列表数据时经常需要去除重复元素,本文将详细介绍4种最实用的列表去重方法,有需要的小伙伴可以根据自己的需要进行选择... 目录方法1：集合(set)去重法（最快速）方法2：顺序遍历法（保持顺序）方法3：副本删除法（原地修改）方法4：

阅读更多...

在Spring Boot中浅尝内存泄漏的实战记录

在Spring Boot中浅尝内存泄漏的实战记录

《在SpringBoot中浅尝内存泄漏的实战记录》本文给大家分享在SpringBoot中浅尝内存泄漏的实战记录,结合实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录使用静态集合持有对象引用，阻止GC回收关键点：可执行代码：验证：1，运行程序（启动时添加JVM参数限制堆大小）：2，访问 htt

阅读更多...

SpringBoot集成Milvus实现数据增删改查功能

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient

阅读更多...

Node.js 数据库 CRUD 项目示例详解(完美解决方案)

Node.js 数据库 CRUD 项目示例详解(完美解决方案)

《Node.js数据库CRUD项目示例详解(完美解决方案)》：本文主要介绍Node.js数据库CRUD项目示例详解(完美解决方案),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考... 目录项目结构1. 初始化项目2. 配置数据库连接 (config/db.js)3. 创建模型 (models/

阅读更多...

使用Python开发一个带EPUB转换功能的Markdown编辑器

使用Python开发一个带EPUB转换功能的Markdown编辑器

《使用Python开发一个带EPUB转换功能的Markdown编辑器》Markdown因其简单易用和强大的格式支持,成为了写作者、开发者及内容创作者的首选格式,本文将通过Python开发一个Markd... 目录应用概览代码结构与核心组件1. 初始化与布局 (__init__)2. 工具栏 (setup_t

阅读更多...