ETL工具~Kettle调研

2024-08-22 09:32
文章标签 工具 kettle etl 调研

本文主要是介绍ETL工具~Kettle调研,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ETL工具~Kettle调研 2017.2
Kettle
kettle是其中Pentaho默认的ETL工具,下图为Pentaho的使用情况

clipboard.png-298.8kB

什么是ETL

抽取(Extract):需要连接到不同的数据资源,以便为随后的步骤(转换、加载、分析、报表展示等)提供数据。数据抽取实际上是ETL解决方案的成功实施的一个主要障碍。
转换(Transform):任何对数据的处理过程都是转换。通常包括:
1、移动数据
2、根据规则验证数据
3、修改数据的内容或者数据结构
4、集成多个数据源的数据
5、根据处理后的数据计算派生值或者聚集值
加载(Load):将数据加载到目标系统的所有操作

能解决什么问题?

  1. 适用于将多个应用系统的大批量的、异构的数据进行整合,有强大的数据转换功能。
  2. 高效适配多种类型的异构数据库、文件和应用系统。
  3. 快速构建复杂数据大集中应用、无需编码。

适合什么场景?

异构数据库迁移,如将两个SQL Server中的业务数据分别依照特定的逻辑迁移到三个Oracle数据库中。
Kettle通过Webservice获取天气信息 http://blog.itpub.net/10009036/viewspace-1398948/
kettle学习:JsonInput使用 http://blog.csdn.net/jiesa/article/details/50098601
开源ETL工具kettle系列之增量更新设计http://blog.csdn.net/aiynmimi/article/details/52150318
用kettle向hdfs复制文件http://www.cnblogs.com/allan00/p/3838256.html
KETTLE访问HIVE表数据https://ask.hellobi.com/blog/hql15/3450

Kettle的优点?

  1. 插件架构扩展性好
    Kettle 体系架构http://blog.csdn.net/romaticjun2011/article/details/40680483
  2. 流程式设计方便易用
  3. 全面的数据访问支持(支持多个数据库, 如果非默认支持,还可以通过插件扩展)
  4. 支持多平台
  5. 高效稳定:
    1)每个步骤一个线程或者一个步骤分多个线程处理
    2)集群,把数据分散在多个机器中,在每个机器中作运算再汇总
  6. 商业、社区支持
  7. 多种方式应用集成:

1) 把Kettle集成到应用中,通过调用Kettle的API来调用一个作业
2) 把自己写的jar包集成到Kettle里面,通过Kettle的javascript来调用自己编写的class
3) 通过向web页面提交参数,执行一个kettle作业

是否跨平台?

底层依靠JVM,且为纯JAVA开发
Linux
1)进入到Kettle部署的路径
2)执行 chmod *.sh,将所有shell文件添加可执行权限
3)在Kettle路径下,如果要执行transformation,就运行./pan.sh -file=?.ktr -debug=debug -log=log.log 其中。-file说明你要运行的transformation文件所在的路径;-debug说明日志输出的级别;-log说明日志输出的路径
4)同理,对于job的执行,请将./pan.sh更换成./kitchen.sh,其他部分说明不变。
Windows
执行spoon.bat

是否开源,社区支持如何?

开源社区http://www.ukettle.org/forum.php

对分布式集群的针对性如何?

Kettle Execution on Storm http://wiki.pentaho.com/display/BAD/Kettle+Execution+on+Storm
Kettle on Spark http://wiki.pentaho.com/display/BAD/Kettle+on+Spark
Loading Data into HDFS http://wiki.pentaho.com/display/BAD/Loading+Data+into+HDFS
Kettle 集群(cluster)在多个服务器(windows、linux)上并发执行 http://blog.csdn.net/lixuemei504/article/details/38271145
KETTLE集群搭建 http://www.cnblogs.com/skyrim/p/5104557.html

是否可以进行自定义改进源代码?

kettle插件开发 https://wenku.baidu.com/view/33c46d1459eef8c75fbfb3b5.html?re=view
kettle调用第三方短信平台HTTP接口发送短信 http://www.ukettle.org/thread-1025-1-1.html

结构组成?

Spoon 一个基于swt开发的流式处理客户端,用户开发转换、任务、创建数据库、集群、分区等
Pan 独立的命令行程序,支持通过命令行实现界面的功能,如果转换启停,任务启停,状态查看等
Kitchen 一个独立的命令行程序,用于执行由Spoon编辑的作业.
Carte 一个轻量级的Web容器,用于建立专用、远程的ETL Server。


有什么缺点?

kettle性能及效率提升 http://blog.csdn.net/littlecaesar1234/article/details/18657093
kettle中做查询时,遇到大数据时怎么处理 http://www.myexception.cn/database/1294030.html

kettle处理数据的速度,相比较?

让kettle的执行速度飞起来 https://my.oschina.net/sucre/blog/398996

注意事项?

开源ETL工具kettle系列之常见问题 http://blog.csdn.net/zftang/article/details/6194124

81个开源大数据处理的工具 http://www.36dsj.com/archives/25042



😒 留下您对该文章的评价 😄


这篇关于ETL工具~Kettle调研的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1095893

相关文章

基于Python开发电脑定时关机工具

《基于Python开发电脑定时关机工具》这篇文章主要为大家详细介绍了如何基于Python开发一个电脑定时关机工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 简介2. 运行效果3. 相关源码1. 简介这个程序就像一个“忠实的管家”,帮你按时关掉电脑,而且全程不需要你多做

基于C#实现PDF文件合并工具

《基于C#实现PDF文件合并工具》这篇文章主要为大家详细介绍了如何基于C#实现一个简单的PDF文件合并工具,文中的示例代码简洁易懂,有需要的小伙伴可以跟随小编一起学习一下... 界面主要用于发票PDF文件的合并。经常出差要报销的很有用。代码using System;using System.Col

redis-cli命令行工具的使用小结

《redis-cli命令行工具的使用小结》redis-cli是Redis的命令行客户端,支持多种参数用于连接、操作和管理Redis数据库,本文给大家介绍redis-cli命令行工具的使用小结,感兴趣的... 目录基本连接参数基本连接方式连接远程服务器带密码连接操作与格式参数-r参数重复执行命令-i参数指定命

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python制作一个PDF批量加密工具

《使用Python制作一个PDF批量加密工具》PDF批量加密‌是一种保护PDF文件安全性的方法,通过为多个PDF文件设置相同的密码,防止未经授权的用户访问这些文件,下面我们来看看如何使用Python制... 目录1.简介2.运行效果3.相关源码1.简介一个python写的PDF批量加密工具。PDF批量加密

java如何调用kettle设置变量和参数

《java如何调用kettle设置变量和参数》文章简要介绍了如何在Java中调用Kettle,并重点讨论了变量和参数的区别,以及在Java代码中如何正确设置和使用这些变量,避免覆盖Kettle中已设置... 目录Java调用kettle设置变量和参数java代码中变量会覆盖kettle里面设置的变量总结ja

使用Java编写一个文件批量重命名工具

《使用Java编写一个文件批量重命名工具》这篇文章主要为大家详细介绍了如何使用Java编写一个文件批量重命名工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录背景处理1. 文件夹检查与遍历2. 批量重命名3. 输出配置代码片段完整代码背景在开发移动应用时,UI设计通常会提供不

Python按条件批量删除TXT文件行工具

《Python按条件批量删除TXT文件行工具》这篇文章主要为大家详细介绍了Python如何实现按条件批量删除TXT文件中行的工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.简介2.运行效果3.相关源码1.简介一个由python编写android的可根据TXT文件按条件批

详解Python中通用工具类与异常处理

《详解Python中通用工具类与异常处理》在Python开发中,编写可重用的工具类和通用的异常处理机制是提高代码质量和开发效率的关键,本文将介绍如何将特定的异常类改写为更通用的ValidationEx... 目录1. 通用异常类:ValidationException2. 通用工具类:Utils3. 示例文

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只