ETL工具~Kettle调研

2024-08-22 09:32
文章标签 工具 kettle etl 调研

本文主要是介绍ETL工具~Kettle调研,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ETL工具~Kettle调研 2017.2
Kettle
kettle是其中Pentaho默认的ETL工具,下图为Pentaho的使用情况

clipboard.png-298.8kB

什么是ETL

抽取(Extract):需要连接到不同的数据资源,以便为随后的步骤(转换、加载、分析、报表展示等)提供数据。数据抽取实际上是ETL解决方案的成功实施的一个主要障碍。
转换(Transform):任何对数据的处理过程都是转换。通常包括:
1、移动数据
2、根据规则验证数据
3、修改数据的内容或者数据结构
4、集成多个数据源的数据
5、根据处理后的数据计算派生值或者聚集值
加载(Load):将数据加载到目标系统的所有操作

能解决什么问题?

  1. 适用于将多个应用系统的大批量的、异构的数据进行整合,有强大的数据转换功能。
  2. 高效适配多种类型的异构数据库、文件和应用系统。
  3. 快速构建复杂数据大集中应用、无需编码。

适合什么场景?

异构数据库迁移,如将两个SQL Server中的业务数据分别依照特定的逻辑迁移到三个Oracle数据库中。
Kettle通过Webservice获取天气信息 http://blog.itpub.net/10009036/viewspace-1398948/
kettle学习:JsonInput使用 http://blog.csdn.net/jiesa/article/details/50098601
开源ETL工具kettle系列之增量更新设计http://blog.csdn.net/aiynmimi/article/details/52150318
用kettle向hdfs复制文件http://www.cnblogs.com/allan00/p/3838256.html
KETTLE访问HIVE表数据https://ask.hellobi.com/blog/hql15/3450

Kettle的优点?

  1. 插件架构扩展性好
    Kettle 体系架构http://blog.csdn.net/romaticjun2011/article/details/40680483
  2. 流程式设计方便易用
  3. 全面的数据访问支持(支持多个数据库, 如果非默认支持,还可以通过插件扩展)
  4. 支持多平台
  5. 高效稳定:
    1)每个步骤一个线程或者一个步骤分多个线程处理
    2)集群,把数据分散在多个机器中,在每个机器中作运算再汇总
  6. 商业、社区支持
  7. 多种方式应用集成:

1) 把Kettle集成到应用中,通过调用Kettle的API来调用一个作业
2) 把自己写的jar包集成到Kettle里面,通过Kettle的javascript来调用自己编写的class
3) 通过向web页面提交参数,执行一个kettle作业

是否跨平台?

底层依靠JVM,且为纯JAVA开发
Linux
1)进入到Kettle部署的路径
2)执行 chmod *.sh,将所有shell文件添加可执行权限
3)在Kettle路径下,如果要执行transformation,就运行./pan.sh -file=?.ktr -debug=debug -log=log.log 其中。-file说明你要运行的transformation文件所在的路径;-debug说明日志输出的级别;-log说明日志输出的路径
4)同理,对于job的执行,请将./pan.sh更换成./kitchen.sh,其他部分说明不变。
Windows
执行spoon.bat

是否开源,社区支持如何?

开源社区http://www.ukettle.org/forum.php

对分布式集群的针对性如何?

Kettle Execution on Storm http://wiki.pentaho.com/display/BAD/Kettle+Execution+on+Storm
Kettle on Spark http://wiki.pentaho.com/display/BAD/Kettle+on+Spark
Loading Data into HDFS http://wiki.pentaho.com/display/BAD/Loading+Data+into+HDFS
Kettle 集群(cluster)在多个服务器(windows、linux)上并发执行 http://blog.csdn.net/lixuemei504/article/details/38271145
KETTLE集群搭建 http://www.cnblogs.com/skyrim/p/5104557.html

是否可以进行自定义改进源代码?

kettle插件开发 https://wenku.baidu.com/view/33c46d1459eef8c75fbfb3b5.html?re=view
kettle调用第三方短信平台HTTP接口发送短信 http://www.ukettle.org/thread-1025-1-1.html

结构组成?

Spoon 一个基于swt开发的流式处理客户端,用户开发转换、任务、创建数据库、集群、分区等
Pan 独立的命令行程序,支持通过命令行实现界面的功能,如果转换启停,任务启停,状态查看等
Kitchen 一个独立的命令行程序,用于执行由Spoon编辑的作业.
Carte 一个轻量级的Web容器,用于建立专用、远程的ETL Server。


有什么缺点?

kettle性能及效率提升 http://blog.csdn.net/littlecaesar1234/article/details/18657093
kettle中做查询时,遇到大数据时怎么处理 http://www.myexception.cn/database/1294030.html

kettle处理数据的速度,相比较?

让kettle的执行速度飞起来 https://my.oschina.net/sucre/blog/398996

注意事项?

开源ETL工具kettle系列之常见问题 http://blog.csdn.net/zftang/article/details/6194124

81个开源大数据处理的工具 http://www.36dsj.com/archives/25042



😒 留下您对该文章的评价 😄


这篇关于ETL工具~Kettle调研的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1095893

相关文章

使用Java实现通用树形结构构建工具类

《使用Java实现通用树形结构构建工具类》这篇文章主要为大家详细介绍了如何使用Java实现通用树形结构构建工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录完整代码一、设计思想与核心功能二、核心实现原理1. 数据结构准备阶段2. 循环依赖检测算法3. 树形结构构建4. 搜索子

利用Python开发Markdown表格结构转换为Excel工具

《利用Python开发Markdown表格结构转换为Excel工具》在数据管理和文档编写过程中,我们经常使用Markdown来记录表格数据,但它没有Excel使用方便,所以本文将使用Python编写一... 目录1.完整代码2. 项目概述3. 代码解析3.1 依赖库3.2 GUI 设计3.3 解析 Mark

利用Go语言开发文件操作工具轻松处理所有文件

《利用Go语言开发文件操作工具轻松处理所有文件》在后端开发中,文件操作是一个非常常见但又容易出错的场景,本文小编要向大家介绍一个强大的Go语言文件操作工具库,它能帮你轻松处理各种文件操作场景... 目录为什么需要这个工具?核心功能详解1. 文件/目录存javascript在性检查2. 批量创建目录3. 文件

jvm调优常用命令行工具详解

《jvm调优常用命令行工具详解》:本文主要介绍jvm调优常用命令行工具的用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一 jinfo命令查看参数1.1 查看jvm参数二 jstack命令2.1 查看现场堆栈信息三 jstat 实时查看堆内存,gc情况3.1

MySQL使用binlog2sql工具实现在线恢复数据功能

《MySQL使用binlog2sql工具实现在线恢复数据功能》binlog2sql是大众点评开源的一款用于解析MySQLbinlog的工具,根据不同选项,可以得到原始SQL、回滚SQL等,下面我们就来... 目录背景目标步骤准备工作恢复数据结果验证结论背景生产数据库执行 SQL 脚本,一般会经过正规的审批

基于Python开发批量提取Excel图片的小工具

《基于Python开发批量提取Excel图片的小工具》这篇文章主要为大家详细介绍了如何使用Python中的openpyxl库开发一个小工具,可以实现批量提取Excel图片,有需要的小伙伴可以参考一下... 目前有一个需求,就是批量读取当前目录下所有文件夹里的Excel文件,去获取出Excel文件中的图片,并

Java导入、导出excel用法步骤保姆级教程(附封装好的工具类)

《Java导入、导出excel用法步骤保姆级教程(附封装好的工具类)》:本文主要介绍Java导入、导出excel的相关资料,讲解了使用Java和ApachePOI库将数据导出为Excel文件,包括... 目录前言一、引入Apache POI依赖二、用法&步骤2.1 创建Excel的元素2.3 样式和字体2.

基于Python开发PDF转PNG的可视化工具

《基于Python开发PDF转PNG的可视化工具》在数字文档处理领域,PDF到图像格式的转换是常见需求,本文介绍如何利用Python的PyMuPDF库和Tkinter框架开发一个带图形界面的PDF转P... 目录一、引言二、功能特性三、技术架构1. 技术栈组成2. 系统架构javascript设计3.效果图

MyBatis-Plus中静态工具Db的多种用法及实例分析

《MyBatis-Plus中静态工具Db的多种用法及实例分析》本文将详细讲解MyBatis-Plus中静态工具Db的各种用法,并结合具体案例进行演示和说明,具有很好的参考价值,希望对大家有所帮助,如有... 目录MyBATis-Plus中静态工具Db的多种用法及实例案例背景使用静态工具Db进行数据库操作插入

Redis客户端工具之RedisInsight的下载方式

《Redis客户端工具之RedisInsight的下载方式》RedisInsight是Redis官方提供的图形化客户端工具,下载步骤包括访问Redis官网、选择RedisInsight、下载链接、注册... 目录Redis客户端工具RedisInsight的下载一、点击进入Redis官网二、点击RedisI