sqoop操作方法和原理

2024-05-08 23:32
文章标签 原理 操作方法 sqoop

本文主要是介绍sqoop操作方法和原理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、sqoop

顾名思义:sql-to-hadoop,从中我们可以看出sqoop名字的由来,即sq + oop。

1.1、sqoop简介

sqoop是一个用来将hadoop中hdfs和关系型数据库中的数据相互迁移的工具,可以将一个关系型数据库(mysql、oracle等)中的数据
导入到hadoop的hdfs中,也可以将hdfs的数据导入到关系型数据库中。

1.2、sqoop的特点:

sqoop的底层实现是mapreduce,所以sqoop依赖于hadoop,数据是并行导入的。

1.3、架构原理:

		sqoop版本介绍,架构原理此博客介绍较为详细,故引用参考。在此感谢博主的分享:[sqoop和sqoop2的运行原理、安装、操作](https://blog.csdn.net/qq_38776653/article/details/77802871)

1.4 sqoop底层工作原理

1.Sqoop导入底层工作原理

(1)在导入前,Sqoop使用JDBC来检查将要导入的数据表。

(2)Sqoop检索出表中所有的列以及列的SQL数据类型。

(3)把这些SQL类型的映射到java数据类型,例如(VARCHAR、INTEGER)———>(String,Integer)。

(4)在MapReduce应用中将使用这些对应的java类型来保存字段的值。

(5)Sqoop的代码生成器使用这些信息来创建对应表的类,用于保存从表中抽取的记录。

注意:对于导入来说,更关键的是DBWritable接口的序列化方法,这些方法能使(生成的类)和JDBC进行交互。

2.Sqoop导出底层工作原理

(1)在导出前,sqoop会根据数据库连接字符串来选择一个导出方法 ————>对于大部分系统来说,sqoop会选择JDBC。

(2)Sqoop会根据目标表的定义生成一个java类。

(3)这个生成的类能够从文本中解析出记录,并能够向表中插入类型合适的值(除了能够读取ResultSet中的列)。

(4)然后启动一个MapReduce作业,从HDFS中读取源数据文件。

(5)使用生成的类解析出记录,并且执行选定的导出方法。

二、配置:

1、开启Zookeeper和hadoop集群服务

	首先需要开启hdfs和zookeeper集群服务。

2、修改配置文件:

** sqoop-env.sh

#export HADOOP_COMMON_HOME=
export HADOOP_COMMON_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/#Set path to where hadoop-*-core.jar is available
#export HADOOP_MAPRED_HOME=
export HADOOP_MAPRED_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/#set the path to where bin/hbase is available
#export HBASE_HOME=#Set the path to where bin/hive is available
#export HIVE_HOME=
export HIVE_HOME=/opt/modules/cdh/hive-0.13.1-cdh5.3.6/#Set the path for where zookeper config dir is
#export ZOOCFGDIR=
export ZOOCFGDIR=/opt/modules/cdh/zookeeper-3.4.5-cdh5.3.6/
export ZOOKEEPER_HOME=/opt/modules/cdh/zookeeper-3.4.5-cdh5.3.6/

4、拷贝jdbc驱动到sqoop的lib目录下

				cp -a mysql-connector-java-5.1.27-bin.jar /opt/modules/cdh/sqoop-1.4.5-cdh5.3.6/lib/

5、启动sqoop

				$ bin/sqoop help查看帮助

6、测试Sqoop是否能够连接成功

			$ bin/sqoop list-databases --connect jdbc:mysql://hadoop01:3306/metastore --username root \--password 123456

三、案例

1、使用sqoop将mysql中的数据导入到HDFS

		Step1、确定Mysql服务的正常开启Step2、在Mysql中创建一张表mysql> create database company;mysql> create table staff(id int(4) primary key not null auto_increment, name varchar(255) not null, sex varchar(255) not null);mysql> insert into staff(name, sex) values('Thomas', 'Male');  Step3、操作数据

RDBMS --> HDFS

使用Sqoop导入数据到HDFS
** 全部导入

					$ bin/sqoop import \--connect jdbc:mysql://hadoop01:3306/company \--username root \--password 123456 \--table staff \--target-dir /user/company \--delete-target-dir \--num-mappers 1 \--fields-terminated-by "\t"

** 查询导入

			 $ bin/sqoop import --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456 --target-dir /user/company --delete-target-dir --num-mappers 1 --fields-terminated-by "\t" --query 'select name,sex from staff where id >= 2 and $CONDITIONS;'

** 导入指定列

					$ bin/sqoop import --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456 --target-dir /user/company --delete-target-dir --num-mappers 1 --fields-terminated-by "\t"--columns id, sex--table staff

** 使用sqoop关键字筛选查询导入数据

					$ bin/sqoop import --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456 --target-dir /user/company --delete-target-dir --num-mappers 1 --fields-terminated-by "\t"--table staff--where "id=3"

RDBMS --> Hive

1、在Hive中创建表(不需要提前创建表,会自动创建)

						hive (company)> create table staff_hive(id int, name string, sex string) row format delimited fields terminated by '\t';

2、向Hive中导入数据

						$ bin/sqoop import --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456 --table staff --num-mappers 1 --hive-import --fields-terminated-by "\t" --hive-overwrite --hive-table company.staff_hive

Hive/HDFS --> MYSQL

1、在Mysql中创建一张表

					$ bin/sqoop export --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456--table staff_mysql--num-mappers 1 --export-dir /user/hive/warehouse/company.db/staff_hive--input-fields-terminated-by "\t" 

部分命令解释(具体的内容可以参考官网信息):

--connnect: 指定JDBC URL
--username/password:mysql数据库的用户名
--table:要读取的数据库表
--where:导入数据的过滤条件
--target-dir:HDFS中导入表的存放目录
--warehouse-dir:指定表存放的父目录,只需要指定一次,下次存放时会在该目录下自动以该表名命名
--num-mappers:并发的map数
--null-string:null值时,HDFS存储为N
--null-non-string:非字符类型的字段为空时,存储为N
--incremental append或lastmodified:自动增量方式
--check-column
--last-value:上一次导入的最后一个值

引用参考链接:
https://blog.csdn.net/weixin_40271036/article/details/80014968
https://blog.csdn.net/zhongwen7710/article/details/40032265
https://blog.csdn.net/qq_38776653/article/details/77802871

这篇关于sqoop操作方法和原理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/971745

相关文章

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和

hdu4407容斥原理

题意: 有一个元素为 1~n 的数列{An},有2种操作(1000次): 1、求某段区间 [a,b] 中与 p 互质的数的和。 2、将数列中某个位置元素的值改变。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.Inpu

hdu4059容斥原理

求1-n中与n互质的数的4次方之和 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.io.PrintWrit

寻迹模块TCRT5000的应用原理和功能实现(基于STM32)

目录 概述 1 认识TCRT5000 1.1 模块介绍 1.2 电气特性 2 系统应用 2.1 系统架构 2.2 STM32Cube创建工程 3 功能实现 3.1 代码实现 3.2 源代码文件 4 功能测试 4.1 检测黑线状态 4.2 未检测黑线状态 概述 本文主要介绍TCRT5000模块的使用原理,包括该模块的硬件实现方式,电路实现原理,还使用STM32类

TL-Tomcat中长连接的底层源码原理实现

长连接:浏览器告诉tomcat不要将请求关掉。  如果不是长连接,tomcat响应后会告诉浏览器把这个连接关掉。    tomcat中有一个缓冲区  如果发送大批量数据后 又不处理  那么会堆积缓冲区 后面的请求会越来越慢。

PHP原理之内存管理中难懂的几个点

PHP的内存管理, 分为俩大部分, 第一部分是PHP自身的内存管理, 这部分主要的内容就是引用计数, 写时复制, 等等面向应用的层面的管理. 而第二部分就是今天我要介绍的, zend_alloc中描写的关于PHP自身的内存管理, 包括它是如何管理可用内存, 如何分配内存等. 另外, 为什么要写这个呢, 因为之前并没有任何资料来介绍PHP内存管理中使用的策略, 数据结构, 或者算法. 而在我们

Smarty模板执行原理

为了实现程序的业务逻辑和内容表现页面的分离从而提高开发速度,php 引入了模板引擎的概念,php 模板引擎里面最流行的可以说是smarty了,smarty因其功能强大而且速度快而被广大php web开发者所认可。本文将记录一下smarty模板引擎的工作执行原理,算是加深一下理解。 其实所有的模板引擎的工作原理是差不多的,无非就是在php程序里面用正则匹配将模板里面的标签替换为php代码从而将两者

Restful API 原理以及实现

先说说API 再说啥是RESRFUL API之前,咱先说说啥是API吧。API大家应该都知道吧,简称接口嘛。随着现在移动互联网的火爆,手机软件,也就是APP几乎快爆棚了。几乎任何一个网站或者应用都会出一款iOS或者Android APP,相比网页版的体验,APP确实各方面性能要好很多。 那么现在问题来了。比如QQ空间网站,如果我想获取一个用户发的说说列表。 QQ空间网站里面需要这个功能。

laravel框架实现redis分布式集群原理

在app/config/database.php中配置如下: 'redis' => array('cluster' => true,'default' => array('host' => '172.21.107.247','port' => 6379,),'redis1' => array('host' => '172.21.107.248','port' => 6379,),) 其中cl