Hive使用ORC格式存储离线表

2024-05-15 03:38

本文主要是介绍Hive使用ORC格式存储离线表,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[size=medium]
在大数据时代,列式存储变得越来越流行了,当然并不是说行式存储就没落了,只是针对的场景不同,行式存储的代表就是我们大多数时候经常用的数据库,比较适合数据量小,字段数目少,查询性能高的场景,列式存储主要针对大多数互联网公司中的业务字段数目多,数据量规模大,离线分析多的场景,这时候避免大量无用IO扫描,往往提高离线数据分析的性能,而且列式存储具有更高的压缩比,能够节省一定的磁盘IO和网络IO传输。

基础环境如下:

Apache Hadoop2.7.1
Apache Hbase0.98.12
Apache Hive1.2.1

先看下列式存储的两个代表框架:

Apache Parquet比较适合存储嵌套类型的数据,如json,avro,probuf,thrift等
Apache ORC是对RC格式的增强,支持大多数hive支持的数据类型,主要在压缩和查询层面做了优化。

具体请参考这篇文章:[url]http://wenda.chinahadoop.cn/question/333[/url]
[/size]

在hive中的文件格式主要如下几种:

textfile:默认的文本方式
Sequencefile:二进制格式
rcfile:面向列的二进制格式
orc:rcfile的增强版本,列式存储
parquet:列式存储,对嵌套类型数据支持较好

hive文件支持压缩方式:

这个与底层的hadoop有关,hadoop支持的压缩,hive都支持,主要有:
gzip,bizp,snappy,lzo

[size=medium]
文件格式可以与压缩类似任意组合,从而达到比较的压缩比。


下面看下具体以orc为例子的场景实战:
需求:
将Hbase的表的数据,加载到Hive中一份,用来离线分析使用。

看下几个步骤:

(1)集成Hive+Hbase,使得Hive可以关联查询Hbase表的数据,但需要注意的是,hbase表中的每个字段都有时间戳版本,而进行hive映射时是没办法
指定的timestamp的,在hive1.x之后可虽然可以指定,但是还是有问题的,不建议使用,如果想要标识这一个rowkey的最后修改或者更新时间,可以单独添加一个字段到hbase表中,
然后就可以使用Hive映射了。
关于hive+hbase集成,请参考这篇文章:[url]http://qindongliang.iteye.com/blog/2101094[/url]

(2)使用hive建立一个外部表,关联hbase,sql文件如下:
[/size]

drop table if exists etldb_hbase;
CREATE EXTERNAL TABLE etldb_hbase(rowkey string,
cnum string,
conn string,
cntype string,
cct string,
ctitle string,
curl string,
murl string,
mcat1 string,
mcat2 string,
mcat3 string,
mtitle string,
mconn string,
mcourtid string,
mdel string,
ctime string
)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,
content:casenum,
content:conn,
content:contentType,
content:contentabstract,
content:title,
content:url,
meta:websiteType,
meta:documentType,
meta:spiderTypeFirst,
meta:spiderTypeSecond,
meta:title,
meta:content,
meta:hearOrganization,
meta:isdelete,
content:createTime
")
TBLPROPERTIES ("hbase.table.name" = "ETLDB");

[size=medium]
执行sql文件的hive命令:hive -f xxx.sql
执行sql字符串的hive命令: hive -e " select * from person "

(3)由于orc格式,无法直接从text加载到hive表中,所以需要加入一个中间临时表,用于中转数据,先将
text数据导入一个文件格式weitextfile的表,然后再把这个表的数据直接导入orc的表,当然现在我们的数据源
在hbase中,所以,先建立hive关联hbase的表,然后在建里一个orc的表,用来放数据,sql如下:
[/size]


drop table if exists etldb;

CREATE TABLE etldb(rowkey string,
cnum string,
conn string,
cntype string,
cct string,
ctitle string,
curl string,
murl string,
mcat1 string,
mcat2 string,
mcat3 string,
mtitle string,
mconn string,
mcourtid string,
mdel string,
ctime string
)

stored as orc
--stored as textfile;
tblproperties ("orc.compress"="SNAPPY");
--从临时表,加载数据到orc中
insert into table etldb select * from etldb_hbase;


[size=medium]
(4)加载完成后,就可以离线分析这个表了,用上orc+snappy的组合,查询时比直接
hive关联hbase表查询性能要高一点,当然缺点是数据与数据源hbase里的数据不同步,需要定时增量或者全量,用于离线分析。
[/size]

[b][color=green][size=large]
有什么问题 可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享,也是一个温馨的技术互动交流的小家园
[/size][/color][/b]
[img]http://dl2.iteye.com/upload/attachment/0104/9948/3214000f-5633-3c17-a3d7-83ebda9aebff.jpg[/img]

这篇关于Hive使用ORC格式存储离线表的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990704

相关文章

vue使用docxtemplater导出word

《vue使用docxtemplater导出word》docxtemplater是一种邮件合并工具,以编程方式使用并处理条件、循环,并且可以扩展以插入任何内容,下面我们来看看如何使用docxtempl... 目录docxtemplatervue使用docxtemplater导出word安装常用语法 封装导出方

Linux换行符的使用方法详解

《Linux换行符的使用方法详解》本文介绍了Linux中常用的换行符LF及其在文件中的表示,展示了如何使用sed命令替换换行符,并列举了与换行符处理相关的Linux命令,通过代码讲解的非常详细,需要的... 目录简介检测文件中的换行符使用 cat -A 查看换行符使用 od -c 检查字符换行符格式转换将

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Elasticsearch 在 Java 中的使用教程

《Elasticsearch在Java中的使用教程》Elasticsearch是一个分布式搜索和分析引擎,基于ApacheLucene构建,能够实现实时数据的存储、搜索、和分析,它广泛应用于全文... 目录1. Elasticsearch 简介2. 环境准备2.1 安装 Elasticsearch2.2 J

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当

Java中List的contains()方法的使用小结

《Java中List的contains()方法的使用小结》List的contains()方法用于检查列表中是否包含指定的元素,借助equals()方法进行判断,下面就来介绍Java中List的c... 目录详细展开1. 方法签名2. 工作原理3. 使用示例4. 注意事项总结结论:List 的 contain

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

Android中Dialog的使用详解

《Android中Dialog的使用详解》Dialog(对话框)是Android中常用的UI组件,用于临时显示重要信息或获取用户输入,本文给大家介绍Android中Dialog的使用,感兴趣的朋友一起... 目录android中Dialog的使用详解1. 基本Dialog类型1.1 AlertDialog(

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意