【数据库学习】ClickHouse(ck)

2024-01-12 10:36
文章标签 学习 数据库 clickhouse ck

本文主要是介绍【数据库学习】ClickHouse(ck),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1,ClickHouse(CK)

是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。

1)特性

  1. 按列存储,列越多速度越慢;
    按列存储,数据更容易压缩(类型相同、区分度);==》每次读取的数据就更多,更少的io。
  2. 聚合性能高;
  3. 类sql操作;仅支持数据的查询、批量写入、批量删除。
  4. 用于磁盘查询,同时也利用SSD和内存
  5. 支持近似计算

2)常见的列式数据库有

Vertica、 Paraccel (Actian Matrix,Amazon Redshift)、 Sybase IQ、 Exasol、 Infobright、 InfiniDB、 MonetDB (VectorWise, Actian Vector)、 LucidDB、 SAP HANA、 Google Dremel、 Google PowerDrill、 Druid、 kdb+。

3)ck为什么快?

  1. 列式存储,数据类型相同,值范围也可能小(稀疏索引),更容易压缩,压缩之后每次io读取数据更多,降低了io。
  2. 可以把更多的数据放入内存。
  3. 在ck中,数据保存在不同的shard上,每一个shard都由一组用于容错的replica组成,查询可以并行地在所有shard上进行处理。
  4. 向量引擎,更高效的使用cpu。

2,索引原理

1)主索引(Primary Indexes)建立:LSM树

  1. 数据批量入库;
  2. 索引文件组织:主键列 + 其它排序列 升序
    每个表都有一个数据文件(*.bin)用于存储索引
  3. 按稀疏矩阵压缩,存储在磁盘上。

Granule (颗粒、行组)
是ck进行数据处理的最小的不可分割数据集。
ck每次读取数据,不是读取单独的行,而是始终读取整个行组(Granule)。

在这里插入图片描述第一个(根据磁盘上的物理顺序)8192行(它们的列值)在逻辑上属于颗粒0,然后下一个8192行(它们的列值)属于颗粒1,以此类推。
每个颗粒对应主索引的一个条目。

2)索引查询

1>颗粒选择

通过主索引二分查找,选择可能包含匹配查询的行的颗粒。

2>定位颗粒

每个列的标记文件以偏移量的形式存储两个位置:

  1. 压缩块位置
    包含所选颗粒的压缩版本的压缩列数据文件中定位块。这个压缩块可能包含几个压缩的颗粒。所定位的压缩文件块在读取时被解压到内存中。
  2. 解压数据的位置
    颗粒在解压数据块中的位置。

3)二级索引(Skipping Indexes)

传统的关系数据库的二级索引并不适用与ck(或者列式存储数据库),因为磁盘上没有单独的行可以添加到索引中。

如果一级索引查询后基数过大,可以考虑建立二级索引;
如果二级索引没有太大作用,此时,可以考虑:

  1. 新建一个不同的主键的新表;
  2. 创建一个物化视图;
  3. 增加Projecttion

ck主要的二级索引类型有:minmax、set、Bloom Filter。

1>Minmax

存储每个块的索引表达式的最小值和最大值(如果表达式是一个元组,它分别存储元组元素的每个成员的值)。

场景:标量、元组表达式
不适用于:数组、map数据类型

2>Set

这个集合包含块中的所有值。
场景:列值相对集中。每组颗粒中基数较低、但总体基数较高的列。

3>Bloom Filter Types(跳数索引)

允许对集合成员进行高效的是否存在测试,但代价是有轻微的误报,读取更多的块。
场景:列有较多离散值、主键和目标列具有很强的相关性。

4)MergeTree引擎

这篇关于【数据库学习】ClickHouse(ck)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/597591

相关文章

51单片机学习记录———定时器

文章目录 前言一、定时器介绍二、STC89C52定时器资源三、定时器框图四、定时器模式五、定时器相关寄存器六、定时器练习 前言 一个学习嵌入式的小白~ 有问题评论区或私信指出~ 提示:以下是本篇文章正文内容,下面案例可供参考 一、定时器介绍 定时器介绍:51单片机的定时器属于单片机的内部资源,其电路的连接和运转均在单片机内部完成。 定时器作用: 1.用于计数系统,可

问题:第一次世界大战的起止时间是 #其他#学习方法#微信

问题:第一次世界大战的起止时间是 A.1913 ~1918 年 B.1913 ~1918 年 C.1914 ~1918 年 D.1914 ~1919 年 参考答案如图所示

[word] word设置上标快捷键 #学习方法#其他#媒体

word设置上标快捷键 办公中,少不了使用word,这个是大家必备的软件,今天给大家分享word设置上标快捷键,希望在办公中能帮到您! 1、添加上标 在录入一些公式,或者是化学产品时,需要添加上标内容,按下快捷键Ctrl+shift++就能将需要的内容设置为上标符号。 word设置上标快捷键的方法就是以上内容了,需要的小伙伴都可以试一试呢!

AssetBundle学习笔记

AssetBundle是unity自定义的资源格式,通过调用引擎的资源打包接口对资源进行打包成.assetbundle格式的资源包。本文介绍了AssetBundle的生成,使用,加载,卸载以及Unity资源更新的一个基本步骤。 目录 1.定义: 2.AssetBundle的生成: 1)设置AssetBundle包的属性——通过编辑器界面 补充:分组策略 2)调用引擎接口API

Javascript高级程序设计(第四版)--学习记录之变量、内存

原始值与引用值 原始值:简单的数据即基础数据类型,按值访问。 引用值:由多个值构成的对象即复杂数据类型,按引用访问。 动态属性 对于引用值而言,可以随时添加、修改和删除其属性和方法。 let person = new Object();person.name = 'Jason';person.age = 42;console.log(person.name,person.age);//'J

大学湖北中医药大学法医学试题及答案,分享几个实用搜题和学习工具 #微信#学习方法#职场发展

今天分享拥有拍照搜题、文字搜题、语音搜题、多重搜题等搜题模式,可以快速查找问题解析,加深对题目答案的理解。 1.快练题 这是一个网站 找题的网站海量题库,在线搜题,快速刷题~为您提供百万优质题库,直接搜索题库名称,支持多种刷题模式:顺序练习、语音听题、本地搜题、顺序阅读、模拟考试、组卷考试、赶快下载吧! 2.彩虹搜题 这是个老公众号了 支持手写输入,截图搜题,详细步骤,解题必备

《offer来了》第二章学习笔记

1.集合 Java四种集合:List、Queue、Set和Map 1.1.List:可重复 有序的Collection ArrayList: 基于数组实现,增删慢,查询快,线程不安全 Vector: 基于数组实现,增删慢,查询快,线程安全 LinkedList: 基于双向链实现,增删快,查询慢,线程不安全 1.2.Queue:队列 ArrayBlockingQueue:

关于如何更好管理好数据库的一点思考

本文尝试从数据库设计理论、ER图简介、性能优化、避免过度设计及权限管理方面进行思考阐述。 一、数据库范式 以下通过详细的示例说明数据库范式的概念,将逐步规范化一个例子,逐级说明每个范式的要求和变换过程。 示例:学生课程登记系统 初始表格如下: 学生ID学生姓名课程ID课程名称教师教师办公室1张三101数学王老师101室2李四102英语李老师102室3王五101数学王老师101室4赵六103物理陈

数据库期末复习知识点

A卷 1. 选择题(30') 2. 判断范式(10') 判断到第三范式 3. 程序填空(20') 4. 分析填空(15') 5. 写SQL(25') 5'一题 恶性 B卷 1. 单选(30') 2. 填空 (20') 3. 程序填空(20') 4. 写SQL(30') 知识点 第一章 数据库管理系统(DBMS)  主要功能 数据定义功能 (DDL, 数据定义语

给数据库的表添加字段

周五有一个需求是这样的: 原来数据库有一个表B,现在需要添加一个字段C,我把代码中增删改查部分进行了修改, 比如insert中也添入了字段C。 但没有考虑到一个问题,数据库的兼容性。因为之前的版本已经投入使用了,再升级的话,需要进行兼容处理,当时脑子都蒙了,转不过来,后来同事解决了这个问题。 现在想想,思路就是,把数据库的表结构存入文件中,如xxx.sql 实时更新该文件: CREAT