ETL工具~Kettle调研

2024-08-22 09:32
文章标签 工具 kettle etl 调研

本文主要是介绍ETL工具~Kettle调研,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ETL工具~Kettle调研 2017.2
Kettle
kettle是其中Pentaho默认的ETL工具,下图为Pentaho的使用情况

clipboard.png-298.8kB

什么是ETL

抽取(Extract):需要连接到不同的数据资源,以便为随后的步骤(转换、加载、分析、报表展示等)提供数据。数据抽取实际上是ETL解决方案的成功实施的一个主要障碍。
转换(Transform):任何对数据的处理过程都是转换。通常包括:
1、移动数据
2、根据规则验证数据
3、修改数据的内容或者数据结构
4、集成多个数据源的数据
5、根据处理后的数据计算派生值或者聚集值
加载(Load):将数据加载到目标系统的所有操作

能解决什么问题?

  1. 适用于将多个应用系统的大批量的、异构的数据进行整合,有强大的数据转换功能。
  2. 高效适配多种类型的异构数据库、文件和应用系统。
  3. 快速构建复杂数据大集中应用、无需编码。

适合什么场景?

异构数据库迁移,如将两个SQL Server中的业务数据分别依照特定的逻辑迁移到三个Oracle数据库中。
Kettle通过Webservice获取天气信息 http://blog.itpub.net/10009036/viewspace-1398948/
kettle学习:JsonInput使用 http://blog.csdn.net/jiesa/article/details/50098601
开源ETL工具kettle系列之增量更新设计http://blog.csdn.net/aiynmimi/article/details/52150318
用kettle向hdfs复制文件http://www.cnblogs.com/allan00/p/3838256.html
KETTLE访问HIVE表数据https://ask.hellobi.com/blog/hql15/3450

Kettle的优点?

  1. 插件架构扩展性好
    Kettle 体系架构http://blog.csdn.net/romaticjun2011/article/details/40680483
  2. 流程式设计方便易用
  3. 全面的数据访问支持(支持多个数据库, 如果非默认支持,还可以通过插件扩展)
  4. 支持多平台
  5. 高效稳定:
    1)每个步骤一个线程或者一个步骤分多个线程处理
    2)集群,把数据分散在多个机器中,在每个机器中作运算再汇总
  6. 商业、社区支持
  7. 多种方式应用集成:

1) 把Kettle集成到应用中,通过调用Kettle的API来调用一个作业
2) 把自己写的jar包集成到Kettle里面,通过Kettle的javascript来调用自己编写的class
3) 通过向web页面提交参数,执行一个kettle作业

是否跨平台?

底层依靠JVM,且为纯JAVA开发
Linux
1)进入到Kettle部署的路径
2)执行 chmod *.sh,将所有shell文件添加可执行权限
3)在Kettle路径下,如果要执行transformation,就运行./pan.sh -file=?.ktr -debug=debug -log=log.log 其中。-file说明你要运行的transformation文件所在的路径;-debug说明日志输出的级别;-log说明日志输出的路径
4)同理,对于job的执行,请将./pan.sh更换成./kitchen.sh,其他部分说明不变。
Windows
执行spoon.bat

是否开源,社区支持如何?

开源社区http://www.ukettle.org/forum.php

对分布式集群的针对性如何?

Kettle Execution on Storm http://wiki.pentaho.com/display/BAD/Kettle+Execution+on+Storm
Kettle on Spark http://wiki.pentaho.com/display/BAD/Kettle+on+Spark
Loading Data into HDFS http://wiki.pentaho.com/display/BAD/Loading+Data+into+HDFS
Kettle 集群(cluster)在多个服务器(windows、linux)上并发执行 http://blog.csdn.net/lixuemei504/article/details/38271145
KETTLE集群搭建 http://www.cnblogs.com/skyrim/p/5104557.html

是否可以进行自定义改进源代码?

kettle插件开发 https://wenku.baidu.com/view/33c46d1459eef8c75fbfb3b5.html?re=view
kettle调用第三方短信平台HTTP接口发送短信 http://www.ukettle.org/thread-1025-1-1.html

结构组成?

Spoon 一个基于swt开发的流式处理客户端,用户开发转换、任务、创建数据库、集群、分区等
Pan 独立的命令行程序,支持通过命令行实现界面的功能,如果转换启停,任务启停,状态查看等
Kitchen 一个独立的命令行程序,用于执行由Spoon编辑的作业.
Carte 一个轻量级的Web容器,用于建立专用、远程的ETL Server。


有什么缺点?

kettle性能及效率提升 http://blog.csdn.net/littlecaesar1234/article/details/18657093
kettle中做查询时,遇到大数据时怎么处理 http://www.myexception.cn/database/1294030.html

kettle处理数据的速度,相比较?

让kettle的执行速度飞起来 https://my.oschina.net/sucre/blog/398996

注意事项?

开源ETL工具kettle系列之常见问题 http://blog.csdn.net/zftang/article/details/6194124

81个开源大数据处理的工具 http://www.36dsj.com/archives/25042



😒 留下您对该文章的评价 😄


这篇关于ETL工具~Kettle调研的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1095893

相关文章

MySql match against工具详细用法

《MySqlmatchagainst工具详细用法》在MySQL中,MATCH……AGAINST是全文索引(Full-Textindex)的查询语法,它允许你对文本进行高效的全文搜素,支持自然语言搜... 目录一、全文索引的基本概念二、创建全文索引三、自然语言搜索四、布尔搜索五、相关性排序六、全文索引的限制七

基于Java实现回调监听工具类

《基于Java实现回调监听工具类》这篇文章主要为大家详细介绍了如何基于Java实现一个回调监听工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录监听接口类 Listenable实际用法打印结果首先,会用到 函数式接口 Consumer, 通过这个可以解耦回调方法,下面先写一个

使用Python构建一个Hexo博客发布工具

《使用Python构建一个Hexo博客发布工具》虽然Hexo的命令行工具非常强大,但对于日常的博客撰写和发布过程,我总觉得缺少一个直观的图形界面来简化操作,下面我们就来看看如何使用Python构建一个... 目录引言Hexo博客系统简介设计需求技术选择代码实现主框架界面设计核心功能实现1. 发布文章2. 加

JS+HTML实现在线图片水印添加工具

《JS+HTML实现在线图片水印添加工具》在社交媒体和内容创作日益频繁的今天,如何保护原创内容、展示品牌身份成了一个不得不面对的问题,本文将实现一个完全基于HTML+CSS构建的现代化图片水印在线工具... 目录概述功能亮点使用方法技术解析延伸思考运行效果项目源码下载总结概述在社交媒体和内容创作日益频繁的

基于Python打造一个全能文本处理工具

《基于Python打造一个全能文本处理工具》:本文主要介绍一个基于Python+Tkinter开发的全功能本地化文本处理工具,它不仅具备基础的格式转换功能,更集成了中文特色处理等实用功能,有需要的... 目录1. 概述:当文本处理遇上python图形界面2. 功能全景图:六大核心模块解析3.运行效果4. 相

springboot项目中常用的工具类和api详解

《springboot项目中常用的工具类和api详解》在SpringBoot项目中,开发者通常会依赖一些工具类和API来简化开发、提高效率,以下是一些常用的工具类及其典型应用场景,涵盖Spring原生... 目录1. Spring Framework 自带工具类(1) StringUtils(2) Coll

基于Python实现高效PPT转图片工具

《基于Python实现高效PPT转图片工具》在日常工作中,PPT是我们常用的演示工具,但有时候我们需要将PPT的内容提取为图片格式以便于展示或保存,所以本文将用Python实现PPT转PNG工具,希望... 目录1. 概述2. 功能使用2.1 安装依赖2.2 使用步骤2.3 代码实现2.4 GUI界面3.效

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

使用Python自建轻量级的HTTP调试工具

《使用Python自建轻量级的HTTP调试工具》这篇文章主要为大家详细介绍了如何使用Python自建一个轻量级的HTTP调试工具,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录一、为什么需要自建工具二、核心功能设计三、技术选型四、分步实现五、进阶优化技巧六、使用示例七、性能对比八、扩展方向建

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优