kudu-impala分区表(hash和range分区)

2024-06-02 17:08

本文主要是介绍kudu-impala分区表(hash和range分区),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


展开
1、分区表支持hash分区和range分区,根据主键列上的分区模式将table划分为 tablets 。每个 tablet 由至少一台 tablet server提供。理想情况下,一张table分成多个tablets分布在不同的tablet servers ,以最大化并行操作。 
2、Kudu目前没有在创建表之后拆分或合并 tablets 的机制。 
3、创建表时,必须为表提供分区模式。 
4、在设计表格时,使用主键,就可以将table分为以相同速率增长的 tablets 。 
5、您可以使用 Impala 的 PARTITION BY 关键字对表进行分区,该关键字支持 RANGE 或 HASH分发。分区方案可以包含零个或多个 HASH 定义,后面是可选的 RANGE 定义。 RANGE 定义可以引用一个或多个主键列

1、PARTITION BY RANGE ( 按范围划分 ) 
优点:允许根据所选分区键的特定值或值的范围拆分表。这样可以平衡并行写入与扫描效率 
缺点:如果您在其值单调递增的列上按范围进行分区,则最后一个tablet的增长将远大于其他的,此外,插入的所有数据将一次写入单个 tablet ,限制了数据摄取的可扩展性 
例子:

CREATE TABLE customers ( 
state STRING, 
name STRING, 
purchase_count int, 
PRIMARY KEY (state, name) 
) PARTITION BY RANGE (state) ( 
PARTITION VALUE = ‘al’, 
PARTITION VALUE = ‘ak’, 
PARTITION VALUE = ‘ar’, 
PARTITION VALUE = ‘wv’, 
PARTITION VALUE = ‘wy’ 
) STORED AS KUDU 
TBLPROPERTIES( 
‘kudu.table_name’ = ‘customers ‘,’kudu.master_addresses’ = ‘hadoop5:7051’);

2、PARTITION BY HASH ( 哈希分区 ) 
优点:数据均匀地分布在数据桶之间 
缺点:对值的查询可能要读取所有的tablet,也就是自定义的3个 
例子:

CREATE TABLE cust_behavior ( 
id BIGINT, 
sku STRING, 
salary STRING, 
edu_level INT, 
usergender STRING, 
group STRING, 
city STRING, 
postcode STRING, 
last_purchase_price FLOAT, 
last_purchase_date BIGINT, 
category STRING, 
rating INT, 
fulfilled_date BIGINT, 
PRIMARY KEY (id, sku) 

PARTITION BY HASH PARTITIONS 3 
STORED AS KUDU 
TBLPROPERTIES( 
‘kudu.table_name’ = ‘cust_behavior ‘,’kudu.master_addresses’ = ‘hadoop5:7051’);

3、高级分区 
①、PARTITION BY HASH and RANGE 
优点:既可以数据分布均匀,又可以在每个分片中保留指定的数据 
例子:

CREATE TABLE cust_behavior_1 ( 
id BIGINT, 
sku STRING, 
salary STRING, 
edu_level INT, 
usergender STRING, 
group STRING, 
city STRING, 
postcode STRING, 
last_purchase_price FLOAT, 
last_purchase_date BIGINT, 
category STRING, 
rating INT, 
fulfilled_date BIGINT, 
PRIMARY KEY (id, sku) 

PARTITION BY HASH (id) PARTITIONS 4, 
RANGE (sku) 

PARTITION VALUES < ‘g’, 
PARTITION ‘g’ <= VALUES < ‘o’, 
PARTITION ‘o’ <= VALUES < ‘u’, 
PARTITION ‘u’ <= VALUES 
) STORED AS KUDU 
TBLPROPERTIES( 
‘kudu.table_name’ = ‘cust_behavior_1 ‘,’kudu.master_addresses’ = ‘hadoop5:7051’);
 

这篇关于kudu-impala分区表(hash和range分区)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1024573

相关文章

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm

usaco 1.2 Milking Cows(类hash表)

第一种思路被卡了时间 到第二种思路的时候就觉得第一种思路太坑爹了 代码又长又臭还超时!! 第一种思路:我不知道为什么最后一组数据会被卡 超时超了0.2s左右 大概想法是 快排加一个遍历 先将开始时间按升序排好 然后开始遍历比较 1 若 下一个开始beg[i] 小于 tem_end 则说明本组数据与上组数据是在连续的一个区间 取max( ed[i],tem_end ) 2 反之 这个

uva 10029 HASH + DP

题意: 给一个字典,里面有好多单词。单词可以由增加、删除、变换,变成另一个单词,问能变换的最长单词长度。 解析: HASH+dp 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#inc

整数Hash散列总结

方法:    step1  :线性探测  step2 散列   当 h(k)位置已经存储有元素的时候,依次探查(h(k)+i) mod S, i=1,2,3…,直到找到空的存储单元为止。其中,S为 数组长度。 HDU 1496   a*x1^2+b*x2^2+c*x3^2+d*x4^2=0 。 x在 [-100,100] 解的个数  const int MaxN = 3000

POJ 1198 双广+Hash

此题采用双广可从bfs的O(16^8)降低到O(2*16^4); 坐标0-7,刚好3位存储, 需要24位存储四个坐标(x,y),也就是[0,2^24) 。 很好的一题。 import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import

C# Hash算法之MD5、SHA

MD5我们用的还是比较多的,一般用来加密存储密码。但是现在很多人觉MD5可能不太安全了,所以都用上了SHA256等来做加密(虽然我觉得都差不多,MD5还是能玩)。 还是跟上一篇说的一样,当一个算法的复杂度提高的同时肯定会带来效率的降低,所以SHA和MD5比较起来的话,SHA更安全,MD5更高效。 由于HASH算法的不可逆性,所以我认为MD5和SHA主要还是应用在字符串的"加密"上。 由于

CPP中的hash [more cpp-7]

写在前面 hash 在英文中是弄乱的含义。在编程中,hash是一种数据技术,它把任意类型的数据通过算法,生成一串数字(hash code),实现hash的函数称为哈希函数,又称散列函数,杂凑函数。在CPP中hashcode是一个size_t类型的数字。 你可能会问?把数据弄乱有什么用?为什么我们要把数据映射到一串数字上?这又什么意义吗?我们先看看hash的性质 一般hash性质 唯一性(唯