Apache Doris 基础 -- 数据表设计(使用AUTO_INCREMENT)

2024-06-04 18:12

本文主要是介绍Apache Doris 基础 -- 数据表设计(使用AUTO_INCREMENT),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

导入数据时,Doris将表唯一值分配给自动递增列中没有指定值的行。

1、功能

对于包含自动递增列的表,在数据导入期间:

  • 如果目标列不包括自动递增列,Doris将用生成的值填充自动递增列。
  • 如果目标列包括自动递增列,则为该列导入的数据中的空值将被Doris生成的值替换,而非空值将保持不变。注意,非空值可能会破坏自动增量列值的唯一性。

1.1 唯一性

Doris确保在自动递增列上生成的值具有表范围内的唯一性。但是,需要注意的是,自动递增列的唯一性只保证由Doris自动填充的值的唯一性,而不考虑用户提供的值。如果用户通过指定自动递增列显式地为该表插入用户提供的值,则无法保证这种唯一性。

1.2 聚集性

Doris确保自动递增列上生成的值是密集的,但它不能保证导入期间自动递增列中自动生成的值是完全连续的。因此,在导入期间,自动增量列生成的值可能会出现一些跳跃。这是因为出于性能考虑,每个BE都会缓存一部分预分配的自动增量列值,并且这些缓存的值在不同的BE之间不会相交。此外,由于这种缓存机制,Doris不能保证以后在物理时间轴上导入的自动增量列上自动生成的值比以前导入的值大。因此,自动递增列分配的值不能用于确定导入的时间顺序。

2、语法

要使用自动递增列,需要在表创建期间(CREATE-TABLE)将AUTO_INCREMENT属性添加到相应的列。要手动指定自动递增列的起始值,可以在创建表时使用AUTO_INCREMENT(start_value)语句。如果不指定,则默认起始值为1

2.1 Examples

  1. 创建一个 Duplicate 表,其中一个键列作为自动递增列:
CREATE TABLE `demo`.`tbl` (`id` BIGINT NOT NULL AUTO_INCREMENT,`value` BIGINT NOT NULL
) ENGINE=OLAP
DUPLICATE KEY(`id`)
DISTRIBUTED BY HASH(`id`) BUCKETS 10
PROPERTIES (
"replication_allocation" = "tag.location.default: 3"
);
  1. 创建一个 Duplicate 表,其中一个键列作为自动递增列,并设置起始值为100:
CREATE TABLE `demo`.`tbl` (`id` BIGINT NOT NULL AUTO_INCREMENT(100),`value` BIGINT NOT NULL
) ENGINE=OLAP
DUPLICATE KEY(`id`)
DISTRIBUTED BY HASH(`id`) BUCKETS 10
PROPERTIES (
"replication_allocation" = "tag.location.default: 3"
);

3.创建一个 Duplicate 表,其中一个值列作为自动递增列:

CREATE TABLE `demo`.`tbl` (`uid` BIGINT NOT NULL,`name` BIGINT NOT NULL,`id` BIGINT NOT NULL AUTO_INCREMENT,`value` BIGINT NOT NULL
) ENGINE=OLAP
DUPLICATE KEY(`uid`, `name`)
DISTRIBUTED BY HASH(`uid`) BUCKETS 10
PROPERTIES (
"replication_allocation" = "tag.location.default: 3"
);
  1. 创建一个Unique 表,其中一个键列作为自增列:
CREATE TABLE `demo`.`tbl` (`id` BIGINT NOT NULL AUTO_INCREMENT,`name` varchar(65533) NOT NULL,`value` int(11) NOT NULL
) ENGINE=OLAP
UNIQUE KEY(`id`)
DISTRIBUTED BY HASH(`id`) BUCKETS 10
PROPERTIES (
"replication_allocation" = "tag.location.default: 3",
"enable_unique_key_merge_on_write" = "true"
);
  1. 创建一个Unique表,其中一个值列作为自动增量列:
CREATE TABLE `demo`.`tbl` (`text` varchar(65533) NOT NULL,`id` BIGINT NOT NULL AUTO_INCREMENT,
) ENGINE=OLAP
UNIQUE KEY(`text`)
DISTRIBUTED BY HASH(`text`) BUCKETS 10
PROPERTIES (
"replication_allocation" = "tag.location.default: 3",
"enable_unique_key_merge_on_write" = "true"
);

2.2 制约和限制

  • 只有Duplicate 模型表和Unique 模型表可以包含自动递增列。
  • 一个表最多只能包含一个自动递增列。
  • 自动递增列的类型必须为BIGINT并且必须为NOT NULL
  • 手动指定的自动递增列的起始值必须大于或等于0。

3、用法

3.1 导入

考虑以下表:

CREATE TABLE `demo`.`tbl` (`id` BIGINT NOT NULL AUTO_INCREMENT,`name` varchar(65533) NOT NULL,`value` int(11) NOT NULL
) ENGINE=OLAP
UNIQUE KEY(`id`)
DISTRIBUTED BY HASH(`id`) BUCKETS 10
PROPERTIES (
"replication_allocation" = "tag.location.default: 3",
"enable_unique_key_merge_on_write" = "true"
);

当使用insert into语句导入数据而没有指定自动递增的列id时,id列将自动被生成的值填充。

mysql> insert into tbl(name, value) values("Bob", 10), ("Alice", 20), ("Jack", 30);
Query OK, 3 rows affected (0.09 sec)
{'label':'label_183babcb84ad4023_a2d6266ab73fb5aa', 'status':'VISIBLE', 'txnId':'7'}mysql> select * from tbl order by id;
+------+-------+-------+
| id   | name  | value |
+------+-------+-------+
|    1 | Bob   |    10 |
|    2 | Alice |    20 |
|    3 | Jack  |    30 |
+------+-------+-------+
3 rows in set (0.05 sec)

类似地,使用流加载导入文件test.csv而不指定自动递增列id将导致id列被自动填充生成的值。

Tom, 40
John, 50
curl --location-trusted -u user:passwd -H "columns:name,value" -H "column_separator:," -T ./test1.csv http://{host}:{port}/api/{db}/tbl/_stream_load
mysql> select * from tbl order by id;
+------+-------+-------+
| id   | name  | value |
+------+-------+-------+
|    1 | Bob   |    10 |
|    2 | Alice |    20 |
|    3 | Jack  |    30 |
|    4 | Tom   |    40 |
|    5 | John  |    50 |
+------+-------+-------+
5 rows in set (0.04 sec)

在指定自动递增列id的同时使用insert into语句导入时,为该列导入的数据中的空值将被生成的值替换。

mysql> insert into tbl(id, name, value) values(null, "Doris", 60), (null, "Nereids", 70);
Query OK, 2 rows affected (0.07 sec)
{'label':'label_9cb0c01db1a0402c_a2b8b44c11ce4703', 'status':'VISIBLE', 'txnId':'10'}mysql> select * from tbl order by id;
+------+---------+-------+
| id   | name    | value |
+------+---------+-------+
|    1 | Bob     |    10 |
|    2 | Alice   |    20 |
|    3 | Jack    |    30 |
|    4 | Tom     |    40 |
|    5 | John    |    50 |
|    6 | Doris   |    60 |
|    7 | Nereids |    70 |
+------+---------+-------+
7 rows in set (0.04 sec)

3.2 部分更新

当对包含自动递增列的merge-on-write Unique表执行部分更新时:

如果自动递增列是键列,则在部分更新期间,由于用户必须显式指定键列,因此部分列更新的目标列必须包括自动递增列。在这个场景中,导入行为类似于常规的部分更新。

mysql> CREATE TABLE `demo`.`tbl2` (->     `id` BIGINT NOT NULL AUTO_INCREMENT,->     `name` varchar(65533) NOT NULL,->     `value` int(11) NOT NULL DEFAULT "0"-> ) ENGINE=OLAP-> UNIQUE KEY(`id`)-> DISTRIBUTED BY HASH(`id`) BUCKETS 10-> PROPERTIES (-> "replication_allocation" = "tag.location.default: 3",-> "enable_unique_key_merge_on_write" = "true"-> );
Query OK, 0 rows affected (0.03 sec)mysql> insert into tbl2(id, name, value) values(1, "Bob", 10), (2, "Alice", 20), (3, "Jack", 30);
Query OK, 3 rows affected (0.14 sec)
{'label':'label_5538549c866240b6_bce75ef323ac22a0', 'status':'VISIBLE', 'txnId':'1004'}mysql> select * from tbl2 order by id;
+------+-------+-------+
| id   | name  | value |
+------+-------+-------+
|    1 | Bob   |    10 |
|    2 | Alice |    20 |
|    3 | Jack  |    30 |
+------+-------+-------+
3 rows in set (0.08 sec)mysql> set enable_unique_key_partial_update=true;
Query OK, 0 rows affected (0.01 sec)mysql> set enable_insert_strict=false;
Query OK, 0 rows affected (0.00 sec)mysql> insert into tbl2(id, name) values(1, "modified"), (4, "added");
Query OK, 2 rows affected (0.06 sec)
{'label':'label_3e68324cfd87457d_a6166cc0a878cfdc', 'status':'VISIBLE', 'txnId':'1005'}mysql> select * from tbl2 order by id;
+------+----------+-------+
| id   | name     | value |
+------+----------+-------+
|    1 | modified |    10 |
|    2 | Alice    |    20 |
|    3 | Jack     |    30 |
|    4 | added    |     0 |
+------+----------+-------+
4 rows in set (0.04 sec)

当自动递增列是非键列,并且用户没有为自动递增列指定值时,将从表中的现有数据行填充该值。如果用户指定自动递增列,则该列的导入数据中的空值将被生成的值替换,而非空值将保持不变,然后这些数据将加载部分更新的语义。

mysql> CREATE TABLE `demo`.`tbl3` (->     `id` BIGINT NOT NULL,->     `name` varchar(100) NOT NULL,->     `score` BIGINT NOT NULL,->     `aid` BIGINT NOT NULL AUTO_INCREMENT-> ) ENGINE=OLAP-> UNIQUE KEY(`id`)-> DISTRIBUTED BY HASH(`id`) BUCKETS 1-> PROPERTIES (-> "replication_allocation" = "tag.location.default: 3",-> "enable_unique_key_merge_on_write" = "true"-> );
Query OK, 0 rows affected (0.16 sec)mysql> insert into tbl3(id, name, score) values(1, "Doris", 100), (2, "Nereids", 200), (3, "Bob", 300);
Query OK, 3 rows affected (0.28 sec)
{'label':'label_c52b2c246e244dda_9b91ee5e27a31f9b', 'status':'VISIBLE', 'txnId':'2003'}mysql> select * from tbl3 order by id;
+------+---------+-------+------+
| id   | name    | score | aid  |
+------+---------+-------+------+
|    1 | Doris   |   100 |    0 |
|    2 | Nereids |   200 |    1 |
|    3 | Bob     |   300 |    2 |
+------+---------+-------+------+
3 rows in set (0.13 sec)mysql> set enable_unique_key_partial_update=true;
Query OK, 0 rows affected (0.00 sec)mysql> set enable_insert_strict=false;
Query OK, 0 rows affected (0.00 sec)mysql> insert into tbl3(id, score) values(1, 999), (2, 888);
Query OK, 2 rows affected (0.07 sec)
{'label':'label_dfec927d7a4343ca_9f9ade581391de97', 'status':'VISIBLE', 'txnId':'2004'}mysql> select * from tbl3 order by id;
+------+---------+-------+------+
| id   | name    | score | aid  |
+------+---------+-------+------+
|    1 | Doris   |   999 |    0 |
|    2 | Nereids |   888 |    1 |
|    3 | Bob     |   300 |    2 |
+------+---------+-------+------+
3 rows in set (0.06 sec)mysql> insert into tbl3(id, aid) values(1, 1000), (3, 500);
Query OK, 2 rows affected (0.07 sec)
{'label':'label_b26012959f714f60_abe23c87a06aa0bf', 'status':'VISIBLE', 'txnId':'2005'}mysql> select * from tbl3 order by id;
+------+---------+-------+------+
| id   | name    | score | aid  |
+------+---------+-------+------+
|    1 | Doris   |   999 | 1000 |
|    2 | Nereids |   888 |    1 |
|    3 | Bob     |   300 |  500 |
+------+---------+-------+------+
3 rows in set (0.06 sec)

4、使用场景

4.1 字典编码

在用户配置文件中使用位图进行受众分析需要构建一个用户字典,其中每个用户对应一个唯一的整数字典值。聚合这些字典值可以提高位图的性能。

以线下UV、PV分析场景为例,假设有详细的用户行为表:

CREATE TABLE `demo`.`dwd_dup_tbl` (`user_id` varchar(50) NOT NULL,`dim1` varchar(50) NOT NULL,`dim2` varchar(50) NOT NULL,`dim3` varchar(50) NOT NULL,`dim4` varchar(50) NOT NULL,`dim5` varchar(50) NOT NULL,`visit_time` DATE NOT NULL
) ENGINE=OLAP
DUPLICATE KEY(`user_id`)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 32
PROPERTIES (
"replication_allocation" = "tag.location.default: 3"
);

使用auto-increment列创建如下字典表:

CREATE TABLE `demo`.`dictionary_tbl` (`user_id` varchar(50) NOT NULL,`aid` BIGINT NOT NULL AUTO_INCREMENT
) ENGINE=OLAP
UNIQUE KEY(`user_id`)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 32
PROPERTIES (
"replication_allocation" = "tag.location.default: 3",
"enable_unique_key_merge_on_write" = "true"
);

从已有数据中导入user_id的值到字典表中,建立user_id到整数值的映射:

insert into dictionary_tbl(user_id)
select user_id from dwd_dup_tbl group by user_id;

或者只将增量数据中的user_id的值导入字典表:

insert into dictionary_tbl(user_id)
select dwd_dup_tbl.user_id from dwd_dup_tbl left join dictionary_tbl
on dwd_dup_tbl.user_id = dictionary_tbl.user_id where dwd_dup_tbl.visit_time > '2023-12-10' and dictionary_tbl.user_id is NULL;

在实际场景中,Flink连接器也可用于将数据写入Doris

假设dim1dim3dim5表示我们感兴趣的统计维度,创建以下表来存储聚合结果:

CREATE TABLE `demo`.`dws_agg_tbl` (`dim1` varchar(50) NOT NULL,`dim3` varchar(50) NOT NULL,`dim5` varchar(50) NOT NULL,`user_id_bitmap` BITMAP BITMAP_UNION NOT NULL,`pv` BIGINT SUM NOT NULL 
) ENGINE=OLAP
AGGREGATE KEY(`dim1`,`dim3`,`dim5`)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 32
PROPERTIES (
"replication_allocation" = "tag.location.default: 3"
);

将数据聚合操作的结果存储到聚合结果表中:

insert into dws_agg_tbl
select dwd_dup_tbl.dim1, dwd_dup_tbl.dim3, dwd_dup_tbl.dim5, BITMAP_UNION(TO_BITMAP(dictionary_tbl.aid)), COUNT(1)
from dwd_dup_tbl INNER JOIN dictionary_tbl on dwd_dup_tbl.user_id = dictionary_tbl.user_id;

使用以下语句执行UV和PV查询:

select dim1, dim3, dim5, user_id_bitmap as uv, pv from dws_agg_tbl;

高效分页

在页面上显示数据时,通常需要分页。传统的分页通常涉及在SQL查询中使用limitoffsetorder by。例如,考虑下面要显示的业务表:

CREATE TABLE `demo`.`records_tbl` (`key` int(11) NOT NULL COMMENT "",`name` varchar(26) NOT NULL COMMENT "",`address` varchar(41) NOT NULL COMMENT "",`city` varchar(11) NOT NULL COMMENT "",`nation` varchar(16) NOT NULL COMMENT "",`region` varchar(13) NOT NULL COMMENT "",`phone` varchar(16) NOT NULL COMMENT "",`mktsegment` varchar(11) NOT NULL COMMENT ""
) DUPLICATE KEY (`key`, `name`)
DISTRIBUTED BY HASH(`key`) BUCKETS 10
PROPERTIES (
"replication_allocation" = "tag.location.default: 3"
);

假设分页中每页显示100条记录。要获取第一页的数据,可以使用以下SQL查询:

select * from records_tbl order by `key`, `name` limit 100;

获取第二页的数据可以通过以下方式完成:

select * from records_tbl order by `key`, `name` limit 100, offset 100;

但是,在执行深度分页查询(具有较大偏移量)时,即使实际所需的数据行很少,该方法仍然会将所有数据读入内存中进行完整排序,然后再进行后续处理,这是非常低效的。使用自动递增列会为每行分配一个唯一值,从而允许使用where unique_value > x limit y预先过滤大量数据,从而提高分页效率

继续前面提到的业务表,向表中添加一个自动递增列,为每一行提供唯一标识符:

CREATE TABLE `demo`.`records_tbl2` (`key` int(11) NOT NULL COMMENT "",`name` varchar(26) NOT NULL COMMENT "",`address` varchar(41) NOT NULL COMMENT "",`city` varchar(11) NOT NULL COMMENT "",`nation` varchar(16) NOT NULL COMMENT "",`region` varchar(13) NOT NULL COMMENT "",`phone` varchar(16) NOT NULL COMMENT "",`mktsegment` varchar(11) NOT NULL COMMENT "",`unique_value` BIGINT NOT NULL AUTO_INCREMENT
) DUPLICATE KEY (`key`, `name`)
DISTRIBUTED BY HASH(`key`) BUCKETS 10
PROPERTIES ("replication_num" = "3"
);

对于每页显示100条记录的分页,要获取第一页的数据,可以使用以下SQL查询:

select * from records_tbl2 order by unique_value limit 100;

通过记录返回结果中的unique_value的最大值,我们假设它是99。下面的查询可以获取第二页的数据:

select * from records_tbl2 where unique_value > 99 order by unique_value limit 100;

如果直接查询后一页的内容,不方便直接从前一页的数据中获取unique_value的最大值(例如直接获取第101页的内容),可以使用以下查询:

select key, name, address, city, nation, region, phone, mktsegment
from records_tbl2, (select unique_value as max_value from records_tbl2 order by unique_value limit 1 offset 9999) as previous_data
where records_tbl2.unique_value > previous_data.max_value
order by records_tbl2.unique_value limit 100;

这篇关于Apache Doris 基础 -- 数据表设计(使用AUTO_INCREMENT)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1030743

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Java中String字符串使用避坑指南

《Java中String字符串使用避坑指南》Java中的String字符串是我们日常编程中用得最多的类之一,看似简单的String使用,却隐藏着不少“坑”,如果不注意,可能会导致性能问题、意外的错误容... 目录8个避坑点如下:1. 字符串的不可变性:每次修改都创建新对象2. 使用 == 比较字符串,陷阱满

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

Linux使用nload监控网络流量的方法

《Linux使用nload监控网络流量的方法》Linux中的nload命令是一个用于实时监控网络流量的工具,它提供了传入和传出流量的可视化表示,帮助用户一目了然地了解网络活动,本文给大家介绍了Linu... 目录简介安装示例用法基础用法指定网络接口限制显示特定流量类型指定刷新率设置流量速率的显示单位监控多个

Debezium 与 Apache Kafka 的集成方式步骤详解

《Debezium与ApacheKafka的集成方式步骤详解》本文详细介绍了如何将Debezium与ApacheKafka集成,包括集成概述、步骤、注意事项等,通过KafkaConnect,D... 目录一、集成概述二、集成步骤1. 准备 Kafka 环境2. 配置 Kafka Connect3. 安装 D

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

C++ Primer 多维数组的使用

《C++Primer多维数组的使用》本文主要介绍了多维数组在C++语言中的定义、初始化、下标引用以及使用范围for语句处理多维数组的方法,具有一定的参考价值,感兴趣的可以了解一下... 目录多维数组多维数组的初始化多维数组的下标引用使用范围for语句处理多维数组指针和多维数组多维数组严格来说,C++语言没