用Sqoop进行Mysql 与HDFS / Hbase的互导数据

2024-06-07 08:38

本文主要是介绍用Sqoop进行Mysql 与HDFS / Hbase的互导数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、建立测试用户sqoop,并在测试用户下建立数据哭sqoop和测试数据表employee
             在Mysql中创建一个用户名:sqoop,密码:sqoop,并授权
grant all privileges on *.* to 'sqoop'@'%' identified by 'sqoop' with grant option;

可以在Linux命令行(不是在Mysql命令行),输入以下代码尝试有没有创建成功
mysql -usqoop -p回车键
sqoop

在sqoop用户下,创建sqoop数据库,在sqoop库中建表employee
create database sqoop;use sqoop;create table employee(employee_id int not null primary key,
employee_name varchar(30));
insert into employee values(101,'zhangsan');
insert into employee values(102,'lisi');
insert into employee values(103,'wangwu');

 

此时,在sqoop库中的employee表中已经存在三条记录,可以select查询验证。

2、测试sqoop能否成功连接mysql

首先,查看mysql的端口号。在Mysql命令窗口输入:

mysql> show variables like 'port';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| port | 3306 |
+---------------+-------+
1 row in set (0.00 sec)
输出端口号(默认是3306)。


然后,退出mysql:exit;

在linux命令行下输入:

因为我的mysql是装载本机上,所以是localhost。

sqoop list-tables --connect jdbc:mysql://localhost:3306/sqoop --username sqoop --password sqoop
会显示employee这个表的名字,结果如下:

... ...
14/06/03 15:02:11 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.
employee
... ...

3、将mysql中的sqoop库中的employee的数据导入到HDFS中

首先,启动hadoop,在hadoop安装目录下输入:

bin/start-all.sh

可以通过jps查看进程,看是否正常启动,以下结果显示启动正常:

3733 SecondaryNameNode
3196 NameNode
4089 TaskTracker
3833 JobTracker
22914 Jps
3471 DataNode

然后,在linux命令行输入:

sqoop import --connect jdbc:mysql://localhost:3306/sqoop --username sqoop --password sqoop --table employee -m 1

如果过程最后显示:

14/06/03 15:13:35 INFO mapreduce.ImportJobBase: Transferred 33 bytes in 24.6435 seconds (1.3391 bytes/sec)
14/06/03 15:13:35 INFO mapreduce.ImportJobBase: Retrieved 3 records.

查看结果,在linux'命令行输入:

hadoop dfs -ls /user/cwjy1202/employee

显示结果如下:

-rw-r--r--   1 cwjy1202 supergroup          0 2014-06-03 15:13 /user/cwjy1202/employee/_SUCCESS
drwxr-xr-x   - cwjy1202 supergroup          0 2014-06-03 15:13 /user/cwjy1202/employee/_logs
-rw-r--r--   1 cwjy1202 supergroup         33 2014-06-03 15:13 /user/cwjy1202/employee/part-m-00000
其中part-m-00000是表的数据信息,可以查看:

 hadoop dfs -cat /user/cwjy1202/employee/part-m-00000
输出结果为:

Warning: $HADOOP_HOME is deprecated.101,zhangsan
102,lisi
103,wangwu

导入HDFS成功!!!

4、将HDFS中的数据导入Mysql

首先,将mysql中的sqoop用户中的sqoop库中的employee表中的数据删除

mysql> use sqoop
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -ADatabase changed
mysql> delete from employee;
Query OK, 3 rows affected (0.04 sec)mysql> select * from employee;
Empty set (0.00 sec)

其次,在linux命令行输入:

sqoop export --connect jdbc:mysql://localhost:3306/sqoop --username sqoop --password sqoop --table employee --export-dir 
hdfs://localhost:9002/user/cwjy1202/employee/part-m-00000
 过程最后会显示,说明成功了:
14/06/03 15:29:57 INFO mapreduce.ExportJobBase: Transferred 730 bytes in 33.2669 seconds (21.9437 bytes/sec)
14/06/03 15:29:57 INFO mapreduce.ExportJobBase: Exported 3 records.

注意:

jdbc:mysql://localhost:3306/sqoop
这个sqoop是数据库的名字。

下面的localhost是masternode的地址,因为我的是伪分布式,masternode所在的地址是localhost。

--export-dirhdfs://localhost:9002

端口号9002,这个一定注意,一般人的是9000,我的9000被其他占用,我改为了9002,这个要看core-site.xml文件下的自己设置的端口号是什么。



此时,查看mysql中sqoop用户下的sqoop库中的employee表中有没有数据:

mysql> select * from employee;
+-------------+---------------+
| employee_id | employee_name |
+-------------+---------------+
|         101 | zhangsan      |
|         102 | lisi          |
|         103 | wangwu        |
+-------------+---------------+
3 rows in set (0.00 sec)

导入mysql成功!!!

5、将Mysql数据导入Hbase

首先,在linux命令行输入:

sqoop import --connect jdbc:mysql://localhost/sqoop --username sqoop --password sqoop --table employee 
--hbase-create-table --hbase-table employee --column-family emplinfo --hbase-row-key employee_id

运行过程最后显示:

14/06/03 15:50:45 INFO mapred.JobClient:     SPLIT_RAW_BYTES=361
14/06/03 15:50:45 INFO mapreduce.ImportJobBase: Transferred 0 bytes in 48.8232 seconds (0 bytes/sec)
14/06/03 15:50:45 INFO mapreduce.ImportJobBase: Retrieved 3 records.

然后,在linux命令行输入:

hbase shell

在hbase命令行,查看表employee:

hbase(main):001:0> scan 'employee'
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/usr/local/hadoop/hbase-0.98.1-hadoop/lib/slf4j-log4j12-1.6.4.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/usr/local/hadoop/lib/slf4j-log4j12-1.4.3.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
ROW                         COLUMN+CELL                                                                  101                        column=emplinfo:employee_name, timestamp=1401781827088, value=zhangsan       102                        column=emplinfo:employee_name, timestamp=1401781827136, value=lisi           103                        column=emplinfo:employee_name, timestamp=1401781839401, value=wangwu         
3 row(s) in 1.9230 seconds

导入hbase成功!!!











这篇关于用Sqoop进行Mysql 与HDFS / Hbase的互导数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1038684

相关文章

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

MySQL双主搭建+keepalived高可用的实现

《MySQL双主搭建+keepalived高可用的实现》本文主要介绍了MySQL双主搭建+keepalived高可用的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、测试环境准备二、主从搭建1.创建复制用户2.创建复制关系3.开启复制,确认复制是否成功4.同

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Mysql表的简单操作(基本技能)

《Mysql表的简单操作(基本技能)》在数据库中,表的操作主要包括表的创建、查看、修改、删除等,了解如何操作这些表是数据库管理和开发的基本技能,本文给大家介绍Mysql表的简单操作,感兴趣的朋友一起看... 目录3.1 创建表 3.2 查看表结构3.3 修改表3.4 实践案例:修改表在数据库中,表的操作主要

Java进行文件格式校验的方案详解

《Java进行文件格式校验的方案详解》这篇文章主要为大家详细介绍了Java中进行文件格式校验的相关方案,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、背景异常现象原因排查用户的无心之过二、解决方案Magandroidic Number判断主流检测库对比Tika的使用区分zip

Java使用Curator进行ZooKeeper操作的详细教程

《Java使用Curator进行ZooKeeper操作的详细教程》ApacheCurator是一个基于ZooKeeper的Java客户端库,它极大地简化了使用ZooKeeper的开发工作,在分布式系统... 目录1、简述2、核心功能2.1 CuratorFramework2.2 Recipes3、示例实践3

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

《mysql出现ERROR2003(HY000):Can‘tconnecttoMySQLserveron‘localhost‘(10061)的解决方法》本文主要介绍了mysql出现... 目录前言:第一步:第二步:第三步:总结:前言:当你想通过命令窗口想打开mysql时候发现提http://www.cpp