sqoop操作方法和原理

2024-05-08 23:32
文章标签 原理 操作方法 sqoop

本文主要是介绍sqoop操作方法和原理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、sqoop

顾名思义:sql-to-hadoop,从中我们可以看出sqoop名字的由来,即sq + oop。

1.1、sqoop简介

sqoop是一个用来将hadoop中hdfs和关系型数据库中的数据相互迁移的工具,可以将一个关系型数据库(mysql、oracle等)中的数据
导入到hadoop的hdfs中,也可以将hdfs的数据导入到关系型数据库中。

1.2、sqoop的特点:

sqoop的底层实现是mapreduce,所以sqoop依赖于hadoop,数据是并行导入的。

1.3、架构原理:

		sqoop版本介绍,架构原理此博客介绍较为详细,故引用参考。在此感谢博主的分享:[sqoop和sqoop2的运行原理、安装、操作](https://blog.csdn.net/qq_38776653/article/details/77802871)

1.4 sqoop底层工作原理

1.Sqoop导入底层工作原理

(1)在导入前,Sqoop使用JDBC来检查将要导入的数据表。

(2)Sqoop检索出表中所有的列以及列的SQL数据类型。

(3)把这些SQL类型的映射到java数据类型,例如(VARCHAR、INTEGER)———>(String,Integer)。

(4)在MapReduce应用中将使用这些对应的java类型来保存字段的值。

(5)Sqoop的代码生成器使用这些信息来创建对应表的类,用于保存从表中抽取的记录。

注意:对于导入来说,更关键的是DBWritable接口的序列化方法,这些方法能使(生成的类)和JDBC进行交互。

2.Sqoop导出底层工作原理

(1)在导出前,sqoop会根据数据库连接字符串来选择一个导出方法 ————>对于大部分系统来说,sqoop会选择JDBC。

(2)Sqoop会根据目标表的定义生成一个java类。

(3)这个生成的类能够从文本中解析出记录,并能够向表中插入类型合适的值(除了能够读取ResultSet中的列)。

(4)然后启动一个MapReduce作业,从HDFS中读取源数据文件。

(5)使用生成的类解析出记录,并且执行选定的导出方法。

二、配置:

1、开启Zookeeper和hadoop集群服务

	首先需要开启hdfs和zookeeper集群服务。

2、修改配置文件:

** sqoop-env.sh

#export HADOOP_COMMON_HOME=
export HADOOP_COMMON_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/#Set path to where hadoop-*-core.jar is available
#export HADOOP_MAPRED_HOME=
export HADOOP_MAPRED_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/#set the path to where bin/hbase is available
#export HBASE_HOME=#Set the path to where bin/hive is available
#export HIVE_HOME=
export HIVE_HOME=/opt/modules/cdh/hive-0.13.1-cdh5.3.6/#Set the path for where zookeper config dir is
#export ZOOCFGDIR=
export ZOOCFGDIR=/opt/modules/cdh/zookeeper-3.4.5-cdh5.3.6/
export ZOOKEEPER_HOME=/opt/modules/cdh/zookeeper-3.4.5-cdh5.3.6/

4、拷贝jdbc驱动到sqoop的lib目录下

				cp -a mysql-connector-java-5.1.27-bin.jar /opt/modules/cdh/sqoop-1.4.5-cdh5.3.6/lib/

5、启动sqoop

				$ bin/sqoop help查看帮助

6、测试Sqoop是否能够连接成功

			$ bin/sqoop list-databases --connect jdbc:mysql://hadoop01:3306/metastore --username root \--password 123456

三、案例

1、使用sqoop将mysql中的数据导入到HDFS

		Step1、确定Mysql服务的正常开启Step2、在Mysql中创建一张表mysql> create database company;mysql> create table staff(id int(4) primary key not null auto_increment, name varchar(255) not null, sex varchar(255) not null);mysql> insert into staff(name, sex) values('Thomas', 'Male');  Step3、操作数据

RDBMS --> HDFS

使用Sqoop导入数据到HDFS
** 全部导入

					$ bin/sqoop import \--connect jdbc:mysql://hadoop01:3306/company \--username root \--password 123456 \--table staff \--target-dir /user/company \--delete-target-dir \--num-mappers 1 \--fields-terminated-by "\t"

** 查询导入

			 $ bin/sqoop import --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456 --target-dir /user/company --delete-target-dir --num-mappers 1 --fields-terminated-by "\t" --query 'select name,sex from staff where id >= 2 and $CONDITIONS;'

** 导入指定列

					$ bin/sqoop import --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456 --target-dir /user/company --delete-target-dir --num-mappers 1 --fields-terminated-by "\t"--columns id, sex--table staff

** 使用sqoop关键字筛选查询导入数据

					$ bin/sqoop import --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456 --target-dir /user/company --delete-target-dir --num-mappers 1 --fields-terminated-by "\t"--table staff--where "id=3"

RDBMS --> Hive

1、在Hive中创建表(不需要提前创建表,会自动创建)

						hive (company)> create table staff_hive(id int, name string, sex string) row format delimited fields terminated by '\t';

2、向Hive中导入数据

						$ bin/sqoop import --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456 --table staff --num-mappers 1 --hive-import --fields-terminated-by "\t" --hive-overwrite --hive-table company.staff_hive

Hive/HDFS --> MYSQL

1、在Mysql中创建一张表

					$ bin/sqoop export --connect jdbc:mysql://hadoop01:3306/company --username root --password 123456--table staff_mysql--num-mappers 1 --export-dir /user/hive/warehouse/company.db/staff_hive--input-fields-terminated-by "\t" 

部分命令解释(具体的内容可以参考官网信息):

--connnect: 指定JDBC URL
--username/password:mysql数据库的用户名
--table:要读取的数据库表
--where:导入数据的过滤条件
--target-dir:HDFS中导入表的存放目录
--warehouse-dir:指定表存放的父目录,只需要指定一次,下次存放时会在该目录下自动以该表名命名
--num-mappers:并发的map数
--null-string:null值时,HDFS存储为N
--null-non-string:非字符类型的字段为空时,存储为N
--incremental append或lastmodified:自动增量方式
--check-column
--last-value:上一次导入的最后一个值

引用参考链接:
https://blog.csdn.net/weixin_40271036/article/details/80014968
https://blog.csdn.net/zhongwen7710/article/details/40032265
https://blog.csdn.net/qq_38776653/article/details/77802871

这篇关于sqoop操作方法和原理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/971745

相关文章

数据库原理与安全复习笔记(未完待续)

1 概念 产生与发展:人工管理阶段 → \to → 文件系统阶段 → \to → 数据库系统阶段。 数据库系统特点:数据的管理者(DBMS);数据结构化;数据共享性高,冗余度低,易于扩充;数据独立性高。DBMS 对数据的控制功能:数据的安全性保护;数据的完整性检查;并发控制;数据库恢复。 数据库技术研究领域:数据库管理系统软件的研发;数据库设计;数据库理论。数据模型要素 数据结构:描述数据库

计算机组成原理——RECORD

第一章 概论 1.固件  将部分操作系统固化——即把软件永恒存于只读存储器中。 2.多级层次结构的计算机系统 3.冯*诺依曼计算机的特点 4.现代计算机的组成:CPU、I/O设备、主存储器(MM) 5.细化的计算机组成框图 6.指令操作的三个阶段:取指、分析、执行 第二章 计算机的发展 1.第一台由电子管组成的电子数字积分和计算机(ENIAC) 第三章 系统总线

GaussDB关键技术原理:高性能(二)

GaussDB关键技术原理:高性能(一)从数据库性能优化系统概述对GaussDB的高性能技术进行了解读,本篇将从查询处理综述方面继续分享GaussDB的高性能技术的精彩内容。 2 查询处理综述 内容概要:本章节介绍查询端到端处理的执行流程,首先让读者对查询在数据库内部如何执行有一个初步的认识,充分理解查询处理各阶段主要瓶颈点以及对应的解决方案,本章以GaussDB为例讲解查询执行的几个主要阶段

【计算机组成原理】部分题目汇总

计算机组成原理 部分题目汇总 一. 简答题 RISC和CICS 简要说明,比较异同 RISC(精简指令集)注重简单快速的指令执行,使用少量通用寄存器,固定长度指令,优化硬件性能,依赖软件(如编译器)来提升效率。 CISC(复杂指令集)包含多样复杂的指令,能一条指令完成多步操作,采用变长指令,减少指令数但可能增加执行时间,倾向于硬件直接支持复杂功能减轻软件负担。 两者均追求高性能,但RISC

MySQL数据库锁的实现原理

MySQL数据库的锁实现原理主要涉及到如何确保在多用户并发访问数据库时,保证数据的完整性和一致性。以下是MySQL数据库锁实现原理的详细解释: 锁的基本概念和目的 锁的概念:在数据库中,锁是用于管理对公共资源的并发控制的机制。当多个用户或事务试图同时访问或修改同一数据时,数据库系统通过加锁来确保数据的一致性和完整性。 锁的目的:解决多用户环境下保证数据库完整性和一致性的问题。在并发的情况下,会

线性回归(Linear Regression)原理详解及Python代码示例

一、线性回归原理详解         线性回归是一种基本的统计方法,用于预测因变量(目标变量)与一个或多个自变量(特征变量)之间的线性关系。线性回归模型通过拟合一条直线(在多变量情况下是一条超平面)来最小化预测值与真实值之间的误差。 1. 线性回归模型         对于单变量线性回归,模型的表达式为:         其中: y是目标变量。x是特征变量。β0是截距项(偏置)。β1

标准分幅下的图幅号转换成经纬度坐标【原理+源代码】

最近要批量的把标准分幅下的图幅号转换成经纬度坐标,所以这两天写了个程序来搞定这件事情。 先举个例子说明一下这个程序的作用。 例如:计算出图幅号I50G021040的经纬度范围,即最大经度、最小经度、最大纬度、最小纬度。 运用我编写的这个程序,可以直接算出来,这个图幅号的经纬度范围,最大经度为115.3125°,最小经度为115.25°,最大纬度为31.167°,最小纬度为31.125°。

SpingBoot原理

配置优先级 SpringBoot配置的优先级从高到低依次为命令行参数、JNDI属性、Java系统属性、操作系统环境变量、外部配置文件、内部配置文件、注解指定的配置文件和编码中直接指定的默认属性。具体如下: 命令行参数:启动应用时,通过命令行指定的参数拥有最高优先级。例如,使用--server.port=8081会直接改变应用程序的端口,无论在什么配置文件中定义过该值。JNDI属性:这些属性由当

HashMap 的工作原理及其在 Java 中的应用?

在Java的数据结构中,HashMap是最常见且最重要的一个数据结构之一。HashMap是Java集合框架中的一部分,它存储的是键值对(Key-value)映射,也就是说,你可以通过键(Key)找到对应的值(Value)。让我们来详细地看一下HashMap的工作原理。 HashMap的工作原理 HashMap内部有一个数组,数组中的每个元素又是一个链表。当我们将一个键值对存入HashM

Ajax及其工作原理

Ajax及其工作原理 AJAX 是一种与服务器交换数据无需刷新网页的技术,最早由Google公司在谷歌地图里使用,并迅速风靡。 AJAX是不能跨域的,如需跨域,可以使用document.domain='a.com';或者使用服务器代理,代理XMLHttpRequest文件 AJAX是基于现有的Internet标准,并且联合使用它们: XMLHttpRequest 对象 (异步的与服