本文主要是介绍hive小贴士-Hive使用小贴士第一期,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
写在前面的话:
如果你已是独步武林的高手,热烈欢迎你分享自己的经验和技巧
如果你是初出茅庐的新手,希望小贴士可以起到指点迷津或抛砖引玉的作用,助你一路披荆斩棘成为Hive牛人
分区是一个事关重大而新手又容易忽略的问题,在查询中不加分区限制会导致一次遍历所有分区,占用大量服务器资源。所以分区看似简单,
却必须多加注意。
不同类型的表分区方式有所不同,下面根据表的分类来讲解分区的使用方法。
目前较常见的有两种类型的表,拉链表和非拉链表,具体表现形式如下:
Ÿ 拉链表:xx_xx_tablename_chain
Ÿ 非拉链表: 增量表: xx_xx_tablename 全量快照:xx_xx_tablename_da
拉链表的使用方法:
1. 包含HISTORY分区:
以订单拉链表为例fdm_pek_orders_chain
恢复2013-09-01的数据快照: select * from fdm_pek_orders_chain wherestart_date<='2013-09-01' and end_date >'2013-09-01' ; --适用任何情况
恢复当前的快照:select * from fdm_pek_orders_chainwhere dp='ACTIVE' or dp='HISTORY' --注意你要追历史上某一天的数据,就不适用了
2. 不包含HISTORY分区:
以用户表为例fdm_pek_userinfo_chain
恢复2013-09-01的数据快照: select * from fdm_pek_userinfo_chain wherestart_date<='2013-09-01' and end_date >'2013-09-01' ; --适用任何情况
恢复当前的快照:select * from fdm_pek_orders_chainwhere dp='ACTIVE' --注意你要追历史上某一天的数据,就不适用了
这篇关于hive小贴士-Hive使用小贴士第一期的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!