本文主要是介绍Kettle入门(六),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
资源库
数据库资源库
-
数据库资源库是将作业和转换相关的信息存储在数据库中,执行的时候直接去数据库读取信息,便于跨平台使用
-
操作步骤
-
1.点击右上角“connect”,选择“Other Resporitory”
-
2.选择“Database Repository”,点击“Get Started”
-
3.建立新链接
- 1.输入链接名称
- 2.选择kettle配置库
- 3.点击“Finish”
-
4.点击“Finish”
-
5.点击右上角“connect”,选择新建立的链接
-
6.输入用户名、密码
- 默认都为admin
-
7.将之前写好的【转换】或【作业】导入数据库资源库中
- 1.打开菜单栏的“文件”,选择“从xml文件导入”
- 2.在弹出窗口中选择需要导入的【转换】或【作业】文件,便会打开此文件
- 3.点击“保存按钮”
- 4.在弹出窗口选择目录后保存便可
-
文件资源库
-
将【作业】和【转换】相关的信息存储在指定的目录中,与xml方式相同,不便于跨平台使用
-
操作步骤
-
1.点击右上角“connect”,选择“Other Resporitory”
-
2.选择“File Repository”,点击“Get Started”
-
3.建立新链接
- 1.输入链接名称
- 2.选择资源库存储目录
- 3.点击“Finish”
-
4.点击“Finish”
-
5.点击右上角“connect”,选择新建立的链接
-
6.将之前写好的【转换】或【作业】导入资源库中
- 1.打开菜单栏的“文件”,选择“从xml文件导入”
- 2.在弹出窗口中选择需要导入的【转换】或【作业】文件,便会打开此文件
- 3.点击“保存按钮”
- 4.在弹出窗口选择目录后保存便可
-
调优
1.调整JVM大小进行性能优化
-
1.修改Kettle根目录下的Spoon脚本
-
2.-Xmx2048m
- 设置JVM最大可用内存为2048M
-
3.-Xms1024m
-
设置JVM促使内存为1024M
- 此值可与-Xmx相同,以避免每次垃圾回收后JVM重新分配内存
-
2.调整提交(Commit)记录数大小,Kettle默认Commit为1000,可根据数据量大小设置它:1000~50000
3.尽量使用数据库连接池
4.尽量使用缓存,缓存尽量大一些
5.能用sql来做的操作尽量用sql,避免使用控件
6.插入大量数据时把目标表的索引删掉
7.尽量避免使用update、delete操作
- 同理尽量少用【插入/更新】控件
8.清空表时尽量使用truncate,而不要delete
9.尽量缩小输入的数据集的大小
10.【转换】属性中“杂项”里的“记录集合里的记录数”、“每个反馈行的处理记录数”都可以调大一些
11.尽量不要用kettle的calculate计算步骤
12.索引相关优化
-
1.当插入的数据为数据表中的记录数量10%以上时,首先需要删除目标表的索引来提高数据的插入效率,插入完成后再建立索引
-
2.避免在索引字段上使用函数或计算
- 因为若索引参入了函数或计算,优化器将不再使用索引而是通过全表扫描
-
3.避免在索引字段使用NOT和“!=”,否则优化器将启用全表扫描
-
4.索引字段上用“>=” 替换 “>”
13.通过运行时查看“步骤度量”基于“速度”找出性能瓶颈【步骤】
-
在此【步骤】上单机右键,设置它的“改变开始复制的数量”(即改变此步骤使用的多线程数)
- 此方法不适合用在需要排序的步骤,因为使用多线程后会将数据流分割为多个子集
这篇关于Kettle入门(六)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!