本文主要是介绍ETL学习(一)——初见基本名词,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一、Hive
是基于Hadoop的开源数据仓库
二、HiveQL
Hive对外提供的查询语言叫HiveQL,做查询时将HQL语句转换成MapReduce任务。
三、ETL
ETL的英文全称是 Extract-Transform-Load 的缩写,用来描述将数据从来源迁移到目标的几个过程:
1.Extract,数据抽取,也就是把数据从数据源读出来。
2.Transform,数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。
3.Load 数据加载,把处理后的数据加载到目标处,比如数据仓库。
四、数据仓库
所涉及的数据操作主要是数据查询
元数据
为访问数据仓库提供了一个信息目录
五、数据集市
数据集市(Data Mart)是数据仓库的一个访问层,用于从数据仓库抽取相关的数据给用户,数据集市是数据仓库的一个子集
六、sqoop
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系
这篇关于ETL学习(一)——初见基本名词的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!