大数据-数仓-数仓工具:Hive(离线数据分析框架)【替代MapReduce编程;插入、查询、分析HDFS中的大规模数据;机制是将HiveSQL转化成MR程序;不支持修改、删除操作;执行延迟较高】

本文主要是介绍大数据-数仓-数仓工具:Hive(离线数据分析框架)【替代MapReduce编程;插入、查询、分析HDFS中的大规模数据;机制是将HiveSQL转化成MR程序;不支持修改、删除操作;执行延迟较高】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。

Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。

Hive十分适合对数据仓库进行统计分析。

Hive数据仓库 { 元数据(字段名,字段类型...等表结构信息):保存在mysql中 数据(记录值):存储在HDFS中 “元数据”与“数据”通过表进行映射 \text{Hive数据仓库} \begin{cases} \text{元数据(字段名,字段类型...等表结构信息):保存在mysql中}\\[2ex] \text{数据(记录值):存储在HDFS中}\\[2ex] \text{“元数据”与“数据”通过表进行映射} \end{cases} Hive数据仓库 元数据(字段名,字段类型...等表结构信息):保存在mysql数据(记录值):存储在HDFS元数据数据通过表进行映射
在这里插入图片描述
Hive的本质

  • 在Hive中创建的表,库都在hdfs上有相应的路径!
  • 表中的数据,是文件的形式在表对应的目录中存放!
  • 在建表和建库后,会在Mysql中生成对应的shema信息!
    • tbls: 存放表的元数据
    • dbs: 库的元数据
    • column_v2: 列的元数据

Hive的特点:

  • 只支持读(select)、写(insert)操作;
  • 不支持修改(update)、删除(delete)某条数据

生产实践中的流程

  1. 采集数据
  2. 将数据按照自定义的某种格式保存在HDFS中
  3. 根据保存在HDFS中采集数据的格式创建表结构
  4. 使用HiveSql语句进行分析;





一、Hive安装及基本应用

1、Hive安装

①保证安装Hive的Linux服务器的环境变量中有JAVA_HOME
②基于HADOOP工作,保证安装Hive的Linux服务器的环境变量中有HADOOP_HOME
③在安装Hive的Linux服务器的环境变量中配置HIVE_HOME,默认hive在启动时,会读取HIVE_HOME/conf中的配置文件

[wyr@hadoop102 ~]$ echo $JAVA_HOME
/opt/module/jdk1.8.0_121
[wyr@hadoop102 ~]$ echo $HADOOP_HOME
/opt/module/hadoop-2.7.2
[wyr@hadoop102 ~]$ 

把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/soft目录下,解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面

[wyr@hadoop102 soft]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/
[wyr@hadoop102 module]$ ll
total 16
drwxrwxr-x.  8 wyr wyr 4096 Jan 30 15:44 apache-hive-1.2.1-bin
drwxr-xr-x. 11 wyr wyr 4096 Jan 30 15:30 hadoop-2.7.2
drwxr-xr-x.  8 wyr wyr 4096 Dec 13  2016 jdk1.8.0_121
drwxr-xr-x. 11 wyr wyr 4096 Jan 29 22:01 zookeeper-3.4.10
[wyr@hadoop102 module]$ 

修改apache-hive-1.2.1-bin.tar.gz的名称为hive

[wyr@hadoop102 module]$ mv apache-hive-1.2.1-bin/ hive
[wyr@hadoop102 module]$ ll
total 16
drwxr-xr-x. 11 wyr wyr 4096 Jan 30 15:30 hadoop-2.7.2
drwxrwxr-x.  8 wyr wyr 4096 Jan 30 15:44 hive
drwxr-xr-x.  8 wyr wyr 4096 Dec 13  2016 jdk1.8.0_121
drwxr-xr-x. 11 wyr wyr 4096 Jan 29 22:01 zookeeper-3.4.10
[wyr@hadoop102 module]$ 

将/opt/module/hive/bin目录添加到环境变量,在环境变量中提供HIVE_HOME

[wyr@hadoop102 conf]$ vim /etc/profileJAVA_HOME=/opt/module/jdk1.8.0_121
HADOOP_HOME=/opt/module/hadoop-2.7.2
HIVE_HOME=/opt/module/hive
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin
export JAVA_HOME HADOOP_HOME HIVE_HOME PATH[wyr@hadoop102 conf]$ source /etc/profile

2、Hive启动及基本操作

2.1 Hive启动与退出

[wyr@hadoop102 ~]$ ll
total 60
drwxrwxr-x. 2 wyr wyr  4096 Jan 29 12:55 bin
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Desktop
drwxr-xr-x. 2 wyr wyr  4096 Jan 29 23:09 Documents
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Downloads
-rw-rw-r--. 1 wyr wyr    12 Jan 29 23:22 hello
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Music
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Pictures
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Public
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Templates
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Videos
-rw-rw-r--. 1 wyr wyr 19392 Jan 30 15:15 zookeeper.out
[wyr@hadoop102 ~]$ hiveLogging initialized using configuration in jar:file:/opt/module/hive/lib/hive-common-1.2.1.jar!/hive-log4j.properties
hive> quit;
[wyr@hadoop102 ~]$ ll
total 88
drwxrwxr-x. 2 wyr wyr  4096 Jan 29 12:55 bin
-rw-rw-r--. 1 wyr wyr 21031 Jan 30 17:02 derby.log
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Desktop
drwxr-xr-x. 2 wyr wyr  4096 Jan 29 23:09 Documents
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Downloads
-rw-rw-r--. 1 wyr wyr    12 Jan 29 23:22 hello
drwxrwxr-x. 5 wyr wyr  4096 Jan 30 17:02 metastore_db
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Music
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Pictures
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Public
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Templates
drwxr-xr-x. 2 wyr wyr  4096 Jan 26 11:17 Videos
-rw-rw-r--. 1 wyr wyr 19392 Jan 30 15:15 zookeeper.out
[wyr@hadoop102 ~]$ 
  • Hive在哪个目录启动就会在该目录下创建metastore_db文件夹、derby.log日志文件
  • 如果下载在别的目录启动Hive,只会读取当前目录的Hive数据,不会读取别的目录下的Hive数据

2.1 Hive基本操作

查看数据库

hive> show databases;
OK
default
Time taken: 0.516 seconds, Fetched: 1 row(s)
hive> 

打开默认数据库

hive> use default;
OK
Time taken: 0.01 seconds
hive> 

创建一张表

hive> create table person(name varchar(20), age int);
OK
Time taken: 0.261 seconds
hive> 

显示default数据库中的表

hive> show tables;
OK
person
Time taken: 0.008 seconds, Fetched: 1 row(s)
hive> 
<

这篇关于大数据-数仓-数仓工具:Hive(离线数据分析框架)【替代MapReduce编程;插入、查询、分析HDFS中的大规模数据;机制是将HiveSQL转化成MR程序;不支持修改、删除操作;执行延迟较高】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1128907

相关文章

基于Python开发一个图像水印批量添加工具

《基于Python开发一个图像水印批量添加工具》在当今数字化内容爆炸式增长的时代,图像版权保护已成为创作者和企业的核心需求,本方案将详细介绍一个基于PythonPIL库的工业级图像水印解决方案,有需要... 目录一、系统架构设计1.1 整体处理流程1.2 类结构设计(扩展版本)二、核心算法深入解析2.1 自

MySQL逻辑删除与唯一索引冲突解决方案

《MySQL逻辑删除与唯一索引冲突解决方案》本文探讨MySQL逻辑删除与唯一索引冲突问题,提出四种解决方案:复合索引+时间戳、修改唯一字段、历史表、业务层校验,推荐方案1和方案3,适用于不同场景,感兴... 目录问题背景问题复现解决方案解决方案1.复合唯一索引 + 时间戳删除字段解决方案2:删除后修改唯一字

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口

MySql基本查询之表的增删查改+聚合函数案例详解

《MySql基本查询之表的增删查改+聚合函数案例详解》本文详解SQL的CURD操作INSERT用于数据插入(单行/多行及冲突处理),SELECT实现数据检索(列选择、条件过滤、排序分页),UPDATE... 目录一、Create1.1 单行数据 + 全列插入1.2 多行数据 + 指定列插入1.3 插入否则更

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

golang程序打包成脚本部署到Linux系统方式

《golang程序打包成脚本部署到Linux系统方式》Golang程序通过本地编译(设置GOOS为linux生成无后缀二进制文件),上传至Linux服务器后赋权执行,使用nohup命令实现后台运行,完... 目录本地编译golang程序上传Golang二进制文件到linux服务器总结本地编译Golang程序

Linux下删除乱码文件和目录的实现方式

《Linux下删除乱码文件和目录的实现方式》:本文主要介绍Linux下删除乱码文件和目录的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux下删除乱码文件和目录方法1方法2总结Linux下删除乱码文件和目录方法1使用ls -i命令找到文件或目录

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I