sqoop操作方法和原理

本文主要是介绍sqoop操作方法和原理，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、sqoop

顾名思义：sql-to-hadoop，从中我们可以看出sqoop名字的由来，即sq + oop。

1.1、sqoop简介

sqoop是一个用来将hadoop中hdfs和关系型数据库中的数据相互迁移的工具，可以将一个关系型数据库（mysql、oracle等）中的数据
导入到hadoop的hdfs中，也可以将hdfs的数据导入到关系型数据库中。

1.2、sqoop的特点：

sqoop的底层实现是mapreduce，所以sqoop依赖于hadoop,数据是并行导入的。

1.3、架构原理：

		sqoop版本介绍，架构原理此博客介绍较为详细，故引用参考。在此感谢博主的分享：[sqoop和sqoop2的运行原理、安装、操作](https://blog.csdn.net/qq_38776653/article/details/77802871)

1.4 sqoop底层工作原理

1.Sqoop导入底层工作原理

（1）在导入前，Sqoop使用JDBC来检查将要导入的数据表。

（2）Sqoop检索出表中所有的列以及列的SQL数据类型。

（3）把这些SQL类型的映射到java数据类型，例如（VARCHAR、INTEGER）———>（String，Integer）。

（4）在MapReduce应用中将使用这些对应的java类型来保存字段的值。

（5）Sqoop的代码生成器使用这些信息来创建对应表的类，用于保存从表中抽取的记录。

注意：对于导入来说，更关键的是DBWritable接口的序列化方法，这些方法能使（生成的类）和JDBC进行交互。

2.Sqoop导出底层工作原理

（1）在导出前，sqoop会根据数据库连接字符串来选择一个导出方法 ————>对于大部分系统来说，sqoop会选择JDBC。

（2）Sqoop会根据目标表的定义生成一个java类。

（3）这个生成的类能够从文本中解析出记录，并能够向表中插入类型合适的值（除了能够读取ResultSet中的列）。

（4）然后启动一个MapReduce作业，从HDFS中读取源数据文件。

（5）使用生成的类解析出记录，并且执行选定的导出方法。

二、配置：

1、开启Zookeeper和hadoop集群服务

	首先需要开启hdfs和zookeeper集群服务。

2、修改配置文件：

** sqoop-env.sh

#export HADOOP_COMMON_HOME=
export HADOOP_COMMON_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/#Set path to where hadoop-*-core.jar is available
#export HADOOP_MAPRED_HOME=
export HADOOP_MAPRED_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/#set the path to where bin/hbase is available
#export HBASE_HOME=#Set the path to where bin/hive is available
#export HIVE_HOME=
export HIVE_HOME=/opt/modules/cdh/hive-0.13.1-cdh5.3.6/#Set the path for where zookeper config dir is
#export ZOOCFGDIR=
export ZOOCFGDIR=/opt/modules/cdh/zookeeper-3.4.5-cdh5.3.6/
export ZOOKEEPER_HOME=/opt/modules/cdh/zookeeper-3.4.5-cdh5.3.6/

4、拷贝jdbc驱动到sqoop的lib目录下

				cp -a mysql-connector-java-5.1.27-bin.jar /opt/modules/cdh/sqoop-1.4.5-cdh5.3.6/lib/

5、启动sqoop

				$ bin/sqoop help查看帮助

6、测试Sqoop是否能够连接成功

			$ bin/sqoop list-databases --connect jdbc:mysql://hadoop01:3306/metastore --username root \--password 123456

三、案例

1、使用sqoop将mysql中的数据导入到HDFS

		Step1、确定Mysql服务的正常开启Step2、在Mysql中创建一张表mysql> create database company;mysql> create table staff(id int(4) primary key not null auto_increment, name varchar(255) not null, sex varchar(255) not null);mysql> insert into staff(name, sex) values('Thomas', 'Male');  Step3、操作数据

RDBMS --> HDFS

使用Sqoop导入数据到HDFS
** 全部导入

					$ bin/sqoop import \--connect jdbc:mysql://hadoop01:3306/company \--username root \--password 123456 \--table staff \--target-dir /user/company \--delete-target-dir \--num-mappers 1 \--fields-terminated-by "\t"

** 查询导入

			 $ bin/sqoop import --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456 --target-dir /user/company --delete-target-dir --num-mappers 1 --fields-terminated-by "\t" --query 'select name,sex from staff where id >= 2 and $CONDITIONS;'

** 导入指定列

					$ bin/sqoop import --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456 --target-dir /user/company --delete-target-dir --num-mappers 1 --fields-terminated-by "\t"--columns id, sex--table staff

** 使用sqoop关键字筛选查询导入数据

					$ bin/sqoop import --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456 --target-dir /user/company --delete-target-dir --num-mappers 1 --fields-terminated-by "\t"--table staff--where "id=3"

RDBMS --> Hive

1、在Hive中创建表（不需要提前创建表，会自动创建）

						hive (company)> create table staff_hive(id int, name string, sex string) row format delimited fields terminated by '\t';

2、向Hive中导入数据

						$ bin/sqoop import --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456 --table staff --num-mappers 1 --hive-import --fields-terminated-by "\t" --hive-overwrite --hive-table company.staff_hive

Hive/HDFS --> MYSQL

1、在Mysql中创建一张表

					$ bin/sqoop export --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456--table staff_mysql--num-mappers 1 --export-dir /user/hive/warehouse/company.db/staff_hive--input-fields-terminated-by "\t"

部分命令解释（具体的内容可以参考官网信息）：

--connnect: 指定JDBC URL
--username/password：mysql数据库的用户名
--table：要读取的数据库表
--where:导入数据的过滤条件
--target-dir：HDFS中导入表的存放目录
--warehouse-dir：指定表存放的父目录，只需要指定一次，下次存放时会在该目录下自动以该表名命名
--num-mappers：并发的map数
--null-string：null值时，HDFS存储为N
--null-non-string：非字符类型的字段为空时，存储为N
--incremental append或lastmodified：自动增量方式
--check-column
--last-value：上一次导入的最后一个值

引用参考链接：
https://blog.csdn.net/weixin_40271036/article/details/80014968
https://blog.csdn.net/zhongwen7710/article/details/40032265
https://blog.csdn.net/qq_38776653/article/details/77802871

这篇关于sqoop操作方法和原理的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！