【 OpenGauss源码学习 —— 列存储(CU)(二)】

2023-10-17 21:44

本文主要是介绍【 OpenGauss源码学习 —— 列存储(CU)(二)】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

列存储(CU)(二)

  • 概述
  • GetCUHeaderSize 函数
  • Compress 函数
  • CU::FillCompressBufHeader 函数
  • CU::CompressNullBitmapIfNeed 函数
  • CU::CompressData 函数

声明:本文的部分内容参考了他人的文章。在编写过程中,我们尊重他人的知识产权和学术成果,力求遵循合理使用原则,并在适用的情况下注明引用来源。
本文主要参考了 OpenGauss1.1.0 的开源代码和《OpenGauss数据库源码解析》一书以及OpenGauss社区学习文档和一些学习资料

概述

  在【OpenGauss源码学习 —— 列存储(CU)(一)】中我们初步认识了 CU 的结构和作用,本文我们接着来学习列存储数据的压缩解压缩操作。本文所要学习的函数如下表所示:

函 数作 用
GetCUHeaderSize用于获取一个压缩单元(CU)头部的大小。
Compress用于压缩数据。它接受要压缩的数据数量 (valCount)、压缩模式 (compress_modes) 和对齐大小 (align_size) 作为参数,然后对数据进行压缩操作。
FillCompressBufHeader用于填充压缩缓冲区的头部信息。这些信息通常包括元数据和描述压缩数据的头部。
CompressNullBitmapIfNeed如果需要压缩空值位图,则这个函数会对其进行压缩。它接受一个指向字符缓冲区 (buf) 的指针作为参数,然后执行相应的压缩操作。
CompressData用于压缩数据。它接受一个输出缓冲区 (outBuf),要压缩的数据数量 (nVals),压缩选项 (compressOption) 和对齐大小 (align_size) 作为参数,并将压缩后的数据存储在 outBuf 中。

  这几个函数用于在数据库系统中进行列存储数据压缩解压缩操作,包括获取压缩头部信息大小对数据进行压缩填充压缩数据的头部信息、以及在需要时压缩 NULL 位图和解压缩数据,以有效地存储和检索压缩的列存储数据。

GetCUHeaderSize 函数

  该函数用于计算列存储数据单元(Column Unit)头部的大小,该头部包括用于数据校验解析的信息,如 CRC魔术数字信息模式压缩的 NULL 位图大小未压缩数据大小压缩数据大小。这些信息在存储和检索列存储数据时起到关键作用,以确保数据的完整性正确性。其函数源码如下所示:(路径:src/gausskernel/storage/cstore/cu.cpp

// 获取列存储数据单元(Column Unit)头部的大小
int16 CU::GetCUHeaderSize(void) const
{// 返回头部大小,包括以下部分:return sizeof(m_crc) +           // CRC,用于数据完整性检查sizeof(m_magic) +        // 魔术数字,用于标识数据单元类型sizeof(m_infoMode) +     // 信息模式,包含元组和压缩元组的信息// 如果存在压缩的NULL位图,包括其大小(HasNullValue() ? sizeof(m_bpNullCompressedSize) : 0) +sizeof(m_srcDataSize) +   // 未压缩数据大小sizeof(int);              // 压缩后数据的大小
}

  这个函数用于确定列存储数据单元头部的大小,该头部包含了用于数据校验信息描述的各个字段。注释提供了对每个字段和计算过程的解释。

Compress 函数

  Compress 函数用于压缩一个列存储数据单元Column Unit,它首先分配一个用于存储压缩后数据的缓冲区,然后依次执行以下步骤:初始化缓冲区大小填充 NULL 位图(如果需要),压缩数据,如果数据无法压缩则保留未压缩的数据加密压缩后的数据填充缓冲区头部,最后标记数据单元为已压缩释放原始数据缓冲区。其函数源码如下所示:(路径:src/gausskernel/storage/cstore/cu.cpp

/** @Description: 压缩一个列存储数据单元(Column Unit)* @IN compress_modes: 压缩模式* @IN valCount: 值的数量* @See also: 另请参阅*/
void CU::Compress(int valCount, int16 compress_modes, int align_size)
{errno_t rc;// 步骤 1: 初始化分配压缩缓冲区的大小// 源数据大小 + NULL位图大小 + 头部大小// 我们保证压缩数据大小不会超过这个大小m_compressedBufSize = CUAlignUtils::AlignCuSize(m_srcDataSize + m_bpNullRawSize + sizeof(CU), align_size);m_compressedBuf = (char*)CStoreMemAlloc::Palloc(m_compressedBufSize, !m_inCUCache);int16 headerLen = GetCUHeaderSize();char* buf = m_compressedBuf + headerLen;// 步骤 2: 填充压缩的NULL位图buf = CompressNullBitmapIfNeed(buf);// 步骤 3: 压缩数据bool compressed = false;if (COMPRESS_NO != heaprel_get_compression_from_modes(compress_modes))compressed = CompressData(buf, valCount, compress_modes, align_size);// 情况 1: 用户定义不应压缩输入数据。// 情况 2: 即使用户定义压缩数据,但压缩后的数据大小//       大于未压缩数据的大小,因此使用未压缩数据而不是压缩数据。if (compressed == false) {rc = memcpy_s(buf, m_srcDataSize, m_srcData, m_srcDataSize);securec_check(rc, "\0", "\0");m_cuSizeExcludePadding = headerLen + m_bpNullCompressedSize + m_srcDataSize;m_cuSize = CUAlignUtils::AlignCuSize(m_cuSizeExcludePadding, align_size);PADDING_CU(buf + m_srcDataSize, m_cuSize - m_cuSizeExcludePadding);}// 压缩后加密数据单元CUDataEncrypt(buf);// 步骤 4: 填充压缩缓冲区的头部FillCompressBufHeader();m_cache_compressed = true;// 步骤 5: 释放源缓冲区FreeSrcBuf();
}

函数执行过程解释:假设有一个列存储数据单元CU),其中包含多个列的数据,需要将该 CU 进行压缩。首先,函数分配一个缓冲区,该缓冲区的大小由源数据大小NULL 位图大小头部信息大小组成,确保足够容纳压缩后的数据。接着,它检查是否有 NULL,如果有,则填充 NULL 位图到缓冲区。然后,它尝试对数据进行压缩,如果压缩后的数据大小小于未压缩数据大小,将压缩后的数据存入缓冲区。如果数据无法压缩或者压缩后的大小更大,它将保留未压缩的数据。接下来,对压缩后的数据进行加密,并填充缓冲区头部信息。最后,将该 CU 标记为已压缩状态,并释放原始数据缓冲区。这个函数用于减小存储空间并提高数据传输效率。

CU::FillCompressBufHeader 函数

  CU::FillCompressBufHeader 函数用于填充压缩缓冲区m_compressedBuf)的头部信息。以下是该函数的详细解释:该函数的主要功能是在压缩缓冲区中设置头部信息,包括魔术标识信息模式NULL 位图压缩大小未压缩数据大小压缩数据大小以及 CRC 校验值。这些信息用于描述和校验压缩后的数据。这个过程有助于确保数据的完整性可靠性
  其中,CU::FillCompressBufHeader 函数在 Compress 函数中调用。其函数源码如下所示:(路径:src/gausskernel/storage/cstore/cu.cpp

void CU::FillCompressBufHeader(void)
{errno_t rc;// m_crc将在压缩结束时设置char* buf = m_compressedBuf;int pos = sizeof(m_crc);// 将m_magic(魔术标识)复制到压缩缓冲区rc = memcpy_s(buf + pos, sizeof(m_magic), &m_magic, sizeof(m_magic));securec_check(rc, "\0", "\0");pos += sizeof(m_magic);// 设置m_infoMode(信息模式)为CU_CRC32C,表示使用CRC32C校验m_infoMode |= CU_CRC32C;// 将m_infoMode(信息模式)复制到压缩缓冲区rc = memcpy_s(buf + pos, sizeof(m_infoMode), &m_infoMode, sizeof(m_infoMode));securec_check(rc, "\0", "\0");pos += sizeof(m_infoMode);// 如果CU中包含NULL值,将m_bpNullCompressedSize(NULL位图压缩大小)复制到压缩缓冲区if (HasNullValue()) {rc = memcpy_s(buf + pos, sizeof(m_bpNullCompressedSize), &m_bpNullCompressedSize, sizeof(m_bpNullCompressedSize));securec_check(rc, "\0", "\0");pos += sizeof(m_bpNullCompressedSize);}// 将m_srcDataSize(未压缩数据大小)复制到压缩缓冲区rc = memcpy_s(buf + pos, sizeof(m_srcDataSize), &m_srcDataSize, sizeof(m_srcDataSize));securec_check(rc, "\0", "\0");pos += sizeof(m_srcDataSize);// 计算压缩数据的大小(cmprDataSize)并复制到压缩缓冲区int cmprDataSize = m_cuSizeExcludePadding - GetCUHeaderSize() - m_bpNullCompressedSize;rc = memcpy_s(buf + pos, sizeof(cmprDataSize), &cmprDataSize, sizeof(cmprDataSize));securec_check(rc, "\0", "\0");pos += sizeof(cmprDataSize);// 断言检查头部数据的位置是否正确Assert(pos == GetCUHeaderSize());// 最后,计算CRC校验值(m_crc)并将其存储在压缩缓冲区的开头m_crc = GenerateCrc(m_infoMode);*(uint32*)m_compressedBuf = m_crc;
}

CU::CompressNullBitmapIfNeed 函数

  CU::CompressNullBitmapIfNeed 函数用于检查是否需要压缩 NULL 位图数据,然后在压缩缓冲区中进行相应的处理。以下是该函数的详细解释:该函数用于处理 NULL 位图数据的压缩,但当前的实现中,它并没有执行任何实际的压缩操作。在注释中标明了 “FUTURE CASE”,表示将来可能会加入对 NULL 位图数据的压缩解压缩支持。所以,这个函数目前只是将原始的 NULL 位图数据复制到压缩缓冲区中,并将压缩后的大小设置为原始大小。其函数源码如下所示:(路径:src/gausskernel/storage/cstore/cu.cpp

// FUTURE CASE: null bitmap data should be compressed and decompressed
// 注意:应该同时修改CompressNullBitmapIfNeed()和UnCompressNullBitmapIfNeed()函数。
char* CU::CompressNullBitmapIfNeed(_in_ char* buf)
{errno_t rc;if (HasNullValue()) {Assert(m_bpNullRawSize > 0);// FUTURE CASE: 延迟压缩NULL位图数据// 将NULL位图数据复制到压缩缓冲区中rc = memcpy_s(buf, m_bpNullRawSize, m_nulls, m_bpNullRawSize);securec_check(rc, "\0", "\0");m_bpNullCompressedSize = m_bpNullRawSize;}return (buf + m_bpNullCompressedSize);
}

CU::CompressData 函数

  CU::CompressData 函数的作用是对列存储数据进行压缩。以下是该函数的详细解释:

这个函数执行以下操作:

  1. 根据压缩模式选择适当的压缩方法,对数据进行压缩
  2. 如果支持时序数据类型TIMESTAMPFLOAT),可能执行特殊的时序压缩
  3. 如果压缩成功计算压缩后 CU大小并设置相应的压缩信息
  4. 如果采样尚未完成,对样本进行采样并设置采纳的压缩方法
  5. 返回一个布尔值,指示是否成功压缩

  这个函数用于在列存储中对数据进行压缩,以减小存储占用空间。根据数据类型压缩模式,它可能使用不同的压缩算法。如果数据成功压缩,将设置压缩后 CU大小和相应的元信息。这有助于在存储和检索数据时提高性能和减少存储成本。其函数源码如下所示:(路径:src/gausskernel/storage/cstore/cu.cpp

/** @Description: 压缩一个CU(列存储单元)数据。* @IN compress_modes: 压缩模式* @IN nVals: 值的数量* @OUT outBuf: 输出缓冲区* @Return: 布尔值,表示是否成功压缩* @See also:*/
bool CU::CompressData(_out_ char* outBuf, _in_ int nVals, _in_ int16 compress_modes, int align_size)
{int compressOutSize = 0; // 用于存储压缩后的数据大小bool beDelta2Compressed = false; // 用于表示是否使用了特殊的时序压缩方法,例如Delta压缩bool beXORCompressed = false; // 用于表示是否使用了XOR压缩方法/* 从压缩模式获取压缩值 */int8 compression = heaprel_get_compression_from_modes(compress_modes);// 准备输入参数CompressionArg2 output = {0};output.buf = outBuf;output.sz = (m_compressedBuf + m_compressedBufSize) - outBuf;CompressionArg1 input = {0};input.sz = m_srcDataSize;input.buf = m_srcData;input.mode = compress_modes;// 获取压缩过滤器compression_options* ref_filter = (compression_options*)m_tmpinfo->m_options;// 检查是否支持时序数据类型,例如TIMESTAMP或FLOATif (g_instance.attr.attr_common.enable_tsdb && (ATT_IS_TIMESTAMP(m_atttypid) || ATT_IS_FLOAT(m_atttypid))) {// 使用特殊的时序压缩方法SequenceCodec sequenceCoder(m_eachValSize, m_atttypid);compressOutSize = sequenceCoder.compress(input, output);if (ATT_IS_TIMESTAMP(m_atttypid)) {beDelta2Compressed = true;} else if (ATT_IS_FLOAT(m_atttypid)) {beXORCompressed = true;}}// 如果没有进行时序压缩或时序压缩失败,继续以下操作if (compressOutSize < 0 || (!beDelta2Compressed && !beXORCompressed)) {// 重置输出参数output = {0};output.buf = outBuf;output.sz = (m_compressedBuf + m_compressedBufSize) - outBuf;// 检查是否使用整型压缩模式if (m_infoMode & CU_IntLikeCompressed) {if (ATT_IS_CHAR_TYPE(m_atttypid)) {// 对CHAR类型使用整数压缩IntegerCoder intCoder(8);/* 设置最小/最大值 */if (m_tmpinfo->m_valid_minmax) {intCoder.SetMinMaxVal(m_tmpinfo->m_min_value, m_tmpinfo->m_max_value);}/* 提供RLE编码的提示 */intCoder.m_adopt_rle = ref_filter->m_adopt_rle;compressOutSize = intCoder.Compress(input, output);} else if (ATT_IS_NUMERIC_TYPE(m_atttypid)) {if (compression > COMPRESS_LOW) {/// 数值数据类型压缩。/// 直接使用lz4/zlib。input.buildGlobalDict = false;input.useGlobalDict = false;input.globalDict = NULL;input.useDict = false;input.numVals = HasNullValue() ? (nVals - CountNullValuesBefore(nVals)) : nVals;StringCoder strCoder;compressOutSize = strCoder.Compress(input, output);}} else {// 未来,其他类型}} else if (m_eachValSize > 0 && m_eachValSize <= 8) {// 使用整数压缩IntegerCoder intCoder(m_eachValSize);/* 设置最小/最大值 */if (m_tmpinfo->m_valid_minmax) {intCoder.SetMinMaxVal(m_tmpinfo->m_min_value, m_tmpinfo->m_max_value);}/* 提供RLE编码的提示 */intCoder.m_adopt_rle = ref_filter->m_adopt_rle;compressOutSize = intCoder.Compress(input, output);} else {// 未来,其他情况Assert(-1 == m_eachValSize || m_eachValSize > 8);input.buildGlobalDict = false;input.useGlobalDict = false;input.globalDict = NULL;// 对于大小大于8的定长数据类型,// 直接使用lz4/zlib方法,不包括字典方法。// 对于大小为-1的可变长度数据类型,可以应用字典方法// 首先尝试使用字典方法。input.useDict = (m_eachValSize > 8) ? false : (COMPRESS_LOW != compression);// 值的数量不包括NULL值的数量。input.numVals = HasNullValue() ? (nVals - CountNullValuesBefore(nVals)) : nVals;// 使用StringCoder.CompressStringCoder strCoder;/* 提供关于RLE和字典编码的提示 */strCoder.m_adopt_rle = ref_filter->m_adopt_rle;strCoder.m_adopt_dict = ref_filter->m_adopt_dict;compressOutSize = strCoder.Compress(input, output);}}if (compressOutSize > 0) {// 压缩成功,计算CU大小并设置压缩信息Assert((uint32)compressOutSize < m_srcDataSize);Assert((0 == (output.modes & CU_INFOMASK2)) && (0 != (output.modes & CU_INFOMASK1)));m_infoMode |= (output.modes & CU_INFOMASK1);m_cuSizeExcludePadding = (outBuf - m_compressedBuf) + compressOutSize;m_cuSize = CUAlignUtils::AlignCuSize(m_cuSizeExcludePadding, align_size);Assert(m_cuSize <= m_compressedBufSize);PADDING_CU(m_compressedBuf + m_cuSizeExcludePadding, m_cuSize - m_cuSizeExcludePadding);if (!ref_filter->m_sampling_fihished) {/* 对样本进行采样并设置采纳的压缩方法 */ref_filter->set_common_flags(output.modes);}return true;}return false;
}

这篇关于【 OpenGauss源码学习 —— 列存储(CU)(二)】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/228144

相关文章

Java汇编源码如何查看环境搭建

《Java汇编源码如何查看环境搭建》:本文主要介绍如何在IntelliJIDEA开发环境中搭建字节码和汇编环境,以便更好地进行代码调优和JVM学习,首先,介绍了如何配置IntelliJIDEA以方... 目录一、简介二、在IDEA开发环境中搭建汇编环境2.1 在IDEA中搭建字节码查看环境2.1.1 搭建步

使用JavaScript操作本地存储

《使用JavaScript操作本地存储》这篇文章主要为大家详细介绍了JavaScript中操作本地存储的相关知识,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下... 目录本地存储:localStorage 和 sessionStorage基本使用方法1. localStorage

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]