kudu表分区

2024-06-02 17:08
文章标签 分区 kudu

本文主要是介绍kudu表分区,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


kudu表的数据结构是列式存储,但也支持像mysql那样进行检索,而且与spark、impala等现有的应用完美契合,可以说是是大数据平台上支持快速sql查询的上佳选择了。它的好处这里不多说啦,公司的大数据查询有一部分是用到这个技术,这里就列几个其他博客里不常见的涉及kudu表分区的语句(其实官网里都有,只是中文博客里还没见到)。

分区有两种方式,hash 和range分区,
hash分区的语句:
CREATE TABLE kudu_table ( id BIGINT, name STRING, PRIMARY KEY(id) ) PARTITION BY HASH PARTITIONS 16 STORED AS KUDU;

从别的表拉数据新建kudu表的语句:
CREATE TABLE kudu_table PRIMARY KEY (name,age) PARTITION BY HASH(name,age) PARTITIONS 8 STORED AS KUDU AS SELECT name, age FROM old_table;

这里有一个点就是hash分区是可以指定两个列的,注意hash(a),hash(b)和hash(a,b)的含义并不一样。还有就是主键的设计,主键是不允许重复的,重复时后插入的数据会报错(impala中会导致插入无效)

range分区的语句:
CREATE TABLE new_table PRIMARY KEY (name,age) PARTITION BY range(age) ( PARTITION 1<= VALUES <10, PARTITION 10<= VALUES <20, PARTITION 20<= VALUES <30 ) STORED AS KUDU AS SELECT name, age FROM lol;

与mysql类似的,kudu中range分区的表也是支持增加分区的,增加分区的语句为:
alter table new_table add range partition 30<=values<40

这篇关于kudu表分区的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1024574

相关文章

数据库系统 第41节 数据库分区简介

数据库分区是一种数据库设计技术,用于将大型表或索引的数据分布到不同的物理区域,以提高查询性能、优化数据管理、简化维护任务,并提高数据的可用性。下面我将详细介绍每种分区类型,并结合伪代码或概念性的源代码来说明其实现方式。 1. 范围分区 (Range Partitioning) 范围分区是根据某个列的值范围来划分数据。例如,可以按照日期或数值范围来分区。 示例场景:一个订单表,按年份分区。

Windows环境下SD卡多分区 隐藏分区 解决python裸读写扇区失败

SD卡分区 右键“我的电脑”->“管理”->“磁盘管理”; 如果SD卡有文件系统,点击"删除卷",重新做卡; 删除文件系统后如下图,点击“新建简单卷”; 在导航页“指定卷大小”,设置分区的大小,留出剩余的空间; python读写SD卡 这里需要注意的是,写SD卡需要加锁,否则写不成功 #带文件系统,需要锁定卷,否则无法写扇区@contextlib.contextmanagerd

在不损坏数据的情况下给WIN7重新划分分区

小易接到个求助电话:我的机器上已经装好了系统,但是只有一个分区。我不想重装系统重新分区,能不能再分出一个分区?   这个故障可能是困惑很多网友的一个故障。一般,有一些第三方的软件可以实现这些功能。但是,现在在 Windows Vista/Windows 7 里允许你对现有分区大小进行一定范围的调整。   来看一下操作办法:   准备工作   这个操作必须要求你的文件系统是 N

如何调整c盘分区大小,怎样把c盘空间调整小些

新买的笔记本电脑回来后发现电脑只分了C盘和D盘两个区,C盘就占了很大的空间,如何调整c盘分区大小,这样可以多腾些空间出来利用呢?虽然Win7有磁盘管理器可以压缩分区实现把C盘调小些,但是它的功能有限,压缩后也是很大一部分空间在C盘浪费,那怎样把c盘空间调整小些呢,下载我们介绍一个工具来完成这些复杂的动作:   1、下载安装分区助手DiskTool中文版。   在主界面上你可以看到C盘有60

win10 gpt分区+uefi引导 卸载双系统ubuntu

1、首先暴力卸载ubuntu 在win10里面磁盘管理中找到对应的linux磁盘分区 删除卷OK 2、重启 出现下面(根据机型不同界面可能不一样 ) 3、exit 退出grub引导 进入uefi引导  选择win10引导项 (当然你要是一直按着进入bios boot的那个按键的话 也不用看第二步了 直接选择windows启动项进去 dell的话是F12) 4、进入

Kafka【十二】消费者拉取主题分区的分配策略

【1】消费者组、leader和follower 消费者想要拉取主题分区的数据,首先必须要加入到一个组中。 但是一个组中有多个消费者的话,那么每一个消费者该如何消费呢,是不是像图中一样的消费策略呢?如果是的话,那假设消费者组中只有2个消费者或有4个消费者,和分区的数量不匹配,怎么办? 所以这里,我们需要学习Kafka中基本的消费者组中的消费者和分区之间的分配规则: 同一个消费者组的消费者都订

说说Flink DataStream的八种物理分区逻辑

By 大数据技术与架构 场景描述:Spark的RDD有分区的概念,Flink的DataStream同样也有,只不过没有RDD那么显式而已。Flink通过流分区器StreamPartitioner来控制DataStream中的元素往下游的流向。 Spark的RDD有分区的概念,Flink的DataStream同样也有,只不过没有RDD那么显式而已。Flink通过流分区器StreamPartitio

Kafka的分区数与多线程消费探讨

大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 暴走大数据 点击右侧关注,暴走大数据! 典型的high-level Consumer的API如下: Properties props = new Properties(); props.put("zookeeper.connect", "xxxx:2181"); props.put("zookeeper.conne

实时数仓链路分享:kafka =SparkStreaming=kudu集成kerberos

点击上方蓝色字体,选择“设为星标” 回复”资源“获取更多资源 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 暴走大数据 点击右侧关注,暴走大数据! 本文档主要介绍在cdh集成kerberos情况下,sparkstreaming怎么消费kafka数据,并存储在kudu里面 假设kafka集成kerberos假设kudu集成kerberos假设用非root用户操作spark基

Flink实战(113):flink-sql使用(二十一)Flink SQL FileSystem Connector分区提交与自定义小文件合并策略

1 Prologue 之前笔者在介绍Flink 1.11 Hive Streaming新特性时提到过,Flink SQL的FileSystem Connector为了与Flink-Hive集成的大环境适配,做了很多改进,而其中最为明显的就是分区提交(partition commit)机制。本文先通过源码简单过一下分区提交机制的两个要素——即触发(trigger)和策略(policy)的实现,