【 OpenGauss源码学习 —— 列存储(CU)(二)】

2023-10-17 21:44

本文主要是介绍【 OpenGauss源码学习 —— 列存储(CU)(二)】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

列存储(CU)(二)

  • 概述
  • GetCUHeaderSize 函数
  • Compress 函数
  • CU::FillCompressBufHeader 函数
  • CU::CompressNullBitmapIfNeed 函数
  • CU::CompressData 函数

声明:本文的部分内容参考了他人的文章。在编写过程中,我们尊重他人的知识产权和学术成果,力求遵循合理使用原则,并在适用的情况下注明引用来源。
本文主要参考了 OpenGauss1.1.0 的开源代码和《OpenGauss数据库源码解析》一书以及OpenGauss社区学习文档和一些学习资料

概述

  在【OpenGauss源码学习 —— 列存储(CU)(一)】中我们初步认识了 CU 的结构和作用,本文我们接着来学习列存储数据的压缩解压缩操作。本文所要学习的函数如下表所示:

函 数作 用
GetCUHeaderSize用于获取一个压缩单元(CU)头部的大小。
Compress用于压缩数据。它接受要压缩的数据数量 (valCount)、压缩模式 (compress_modes) 和对齐大小 (align_size) 作为参数,然后对数据进行压缩操作。
FillCompressBufHeader用于填充压缩缓冲区的头部信息。这些信息通常包括元数据和描述压缩数据的头部。
CompressNullBitmapIfNeed如果需要压缩空值位图,则这个函数会对其进行压缩。它接受一个指向字符缓冲区 (buf) 的指针作为参数,然后执行相应的压缩操作。
CompressData用于压缩数据。它接受一个输出缓冲区 (outBuf),要压缩的数据数量 (nVals),压缩选项 (compressOption) 和对齐大小 (align_size) 作为参数,并将压缩后的数据存储在 outBuf 中。

  这几个函数用于在数据库系统中进行列存储数据压缩解压缩操作,包括获取压缩头部信息大小对数据进行压缩填充压缩数据的头部信息、以及在需要时压缩 NULL 位图和解压缩数据,以有效地存储和检索压缩的列存储数据。

GetCUHeaderSize 函数

  该函数用于计算列存储数据单元(Column Unit)头部的大小,该头部包括用于数据校验解析的信息,如 CRC魔术数字信息模式压缩的 NULL 位图大小未压缩数据大小压缩数据大小。这些信息在存储和检索列存储数据时起到关键作用,以确保数据的完整性正确性。其函数源码如下所示:(路径:src/gausskernel/storage/cstore/cu.cpp

// 获取列存储数据单元(Column Unit)头部的大小
int16 CU::GetCUHeaderSize(void) const
{// 返回头部大小,包括以下部分:return sizeof(m_crc) +           // CRC,用于数据完整性检查sizeof(m_magic) +        // 魔术数字,用于标识数据单元类型sizeof(m_infoMode) +     // 信息模式,包含元组和压缩元组的信息// 如果存在压缩的NULL位图,包括其大小(HasNullValue() ? sizeof(m_bpNullCompressedSize) : 0) +sizeof(m_srcDataSize) +   // 未压缩数据大小sizeof(int);              // 压缩后数据的大小
}

  这个函数用于确定列存储数据单元头部的大小,该头部包含了用于数据校验信息描述的各个字段。注释提供了对每个字段和计算过程的解释。

Compress 函数

  Compress 函数用于压缩一个列存储数据单元Column Unit,它首先分配一个用于存储压缩后数据的缓冲区,然后依次执行以下步骤:初始化缓冲区大小填充 NULL 位图(如果需要),压缩数据,如果数据无法压缩则保留未压缩的数据加密压缩后的数据填充缓冲区头部,最后标记数据单元为已压缩释放原始数据缓冲区。其函数源码如下所示:(路径:src/gausskernel/storage/cstore/cu.cpp

/** @Description: 压缩一个列存储数据单元(Column Unit)* @IN compress_modes: 压缩模式* @IN valCount: 值的数量* @See also: 另请参阅*/
void CU::Compress(int valCount, int16 compress_modes, int align_size)
{errno_t rc;// 步骤 1: 初始化分配压缩缓冲区的大小// 源数据大小 + NULL位图大小 + 头部大小// 我们保证压缩数据大小不会超过这个大小m_compressedBufSize = CUAlignUtils::AlignCuSize(m_srcDataSize + m_bpNullRawSize + sizeof(CU), align_size);m_compressedBuf = (char*)CStoreMemAlloc::Palloc(m_compressedBufSize, !m_inCUCache);int16 headerLen = GetCUHeaderSize();char* buf = m_compressedBuf + headerLen;// 步骤 2: 填充压缩的NULL位图buf = CompressNullBitmapIfNeed(buf);// 步骤 3: 压缩数据bool compressed = false;if (COMPRESS_NO != heaprel_get_compression_from_modes(compress_modes))compressed = CompressData(buf, valCount, compress_modes, align_size);// 情况 1: 用户定义不应压缩输入数据。// 情况 2: 即使用户定义压缩数据,但压缩后的数据大小//       大于未压缩数据的大小,因此使用未压缩数据而不是压缩数据。if (compressed == false) {rc = memcpy_s(buf, m_srcDataSize, m_srcData, m_srcDataSize);securec_check(rc, "\0", "\0");m_cuSizeExcludePadding = headerLen + m_bpNullCompressedSize + m_srcDataSize;m_cuSize = CUAlignUtils::AlignCuSize(m_cuSizeExcludePadding, align_size);PADDING_CU(buf + m_srcDataSize, m_cuSize - m_cuSizeExcludePadding);}// 压缩后加密数据单元CUDataEncrypt(buf);// 步骤 4: 填充压缩缓冲区的头部FillCompressBufHeader();m_cache_compressed = true;// 步骤 5: 释放源缓冲区FreeSrcBuf();
}

函数执行过程解释:假设有一个列存储数据单元CU),其中包含多个列的数据,需要将该 CU 进行压缩。首先,函数分配一个缓冲区,该缓冲区的大小由源数据大小NULL 位图大小头部信息大小组成,确保足够容纳压缩后的数据。接着,它检查是否有 NULL,如果有,则填充 NULL 位图到缓冲区。然后,它尝试对数据进行压缩,如果压缩后的数据大小小于未压缩数据大小,将压缩后的数据存入缓冲区。如果数据无法压缩或者压缩后的大小更大,它将保留未压缩的数据。接下来,对压缩后的数据进行加密,并填充缓冲区头部信息。最后,将该 CU 标记为已压缩状态,并释放原始数据缓冲区。这个函数用于减小存储空间并提高数据传输效率。

CU::FillCompressBufHeader 函数

  CU::FillCompressBufHeader 函数用于填充压缩缓冲区m_compressedBuf)的头部信息。以下是该函数的详细解释:该函数的主要功能是在压缩缓冲区中设置头部信息,包括魔术标识信息模式NULL 位图压缩大小未压缩数据大小压缩数据大小以及 CRC 校验值。这些信息用于描述和校验压缩后的数据。这个过程有助于确保数据的完整性可靠性
  其中,CU::FillCompressBufHeader 函数在 Compress 函数中调用。其函数源码如下所示:(路径:src/gausskernel/storage/cstore/cu.cpp

void CU::FillCompressBufHeader(void)
{errno_t rc;// m_crc将在压缩结束时设置char* buf = m_compressedBuf;int pos = sizeof(m_crc);// 将m_magic(魔术标识)复制到压缩缓冲区rc = memcpy_s(buf + pos, sizeof(m_magic), &m_magic, sizeof(m_magic));securec_check(rc, "\0", "\0");pos += sizeof(m_magic);// 设置m_infoMode(信息模式)为CU_CRC32C,表示使用CRC32C校验m_infoMode |= CU_CRC32C;// 将m_infoMode(信息模式)复制到压缩缓冲区rc = memcpy_s(buf + pos, sizeof(m_infoMode), &m_infoMode, sizeof(m_infoMode));securec_check(rc, "\0", "\0");pos += sizeof(m_infoMode);// 如果CU中包含NULL值,将m_bpNullCompressedSize(NULL位图压缩大小)复制到压缩缓冲区if (HasNullValue()) {rc = memcpy_s(buf + pos, sizeof(m_bpNullCompressedSize), &m_bpNullCompressedSize, sizeof(m_bpNullCompressedSize));securec_check(rc, "\0", "\0");pos += sizeof(m_bpNullCompressedSize);}// 将m_srcDataSize(未压缩数据大小)复制到压缩缓冲区rc = memcpy_s(buf + pos, sizeof(m_srcDataSize), &m_srcDataSize, sizeof(m_srcDataSize));securec_check(rc, "\0", "\0");pos += sizeof(m_srcDataSize);// 计算压缩数据的大小(cmprDataSize)并复制到压缩缓冲区int cmprDataSize = m_cuSizeExcludePadding - GetCUHeaderSize() - m_bpNullCompressedSize;rc = memcpy_s(buf + pos, sizeof(cmprDataSize), &cmprDataSize, sizeof(cmprDataSize));securec_check(rc, "\0", "\0");pos += sizeof(cmprDataSize);// 断言检查头部数据的位置是否正确Assert(pos == GetCUHeaderSize());// 最后,计算CRC校验值(m_crc)并将其存储在压缩缓冲区的开头m_crc = GenerateCrc(m_infoMode);*(uint32*)m_compressedBuf = m_crc;
}

CU::CompressNullBitmapIfNeed 函数

  CU::CompressNullBitmapIfNeed 函数用于检查是否需要压缩 NULL 位图数据,然后在压缩缓冲区中进行相应的处理。以下是该函数的详细解释:该函数用于处理 NULL 位图数据的压缩,但当前的实现中,它并没有执行任何实际的压缩操作。在注释中标明了 “FUTURE CASE”,表示将来可能会加入对 NULL 位图数据的压缩解压缩支持。所以,这个函数目前只是将原始的 NULL 位图数据复制到压缩缓冲区中,并将压缩后的大小设置为原始大小。其函数源码如下所示:(路径:src/gausskernel/storage/cstore/cu.cpp

// FUTURE CASE: null bitmap data should be compressed and decompressed
// 注意:应该同时修改CompressNullBitmapIfNeed()和UnCompressNullBitmapIfNeed()函数。
char* CU::CompressNullBitmapIfNeed(_in_ char* buf)
{errno_t rc;if (HasNullValue()) {Assert(m_bpNullRawSize > 0);// FUTURE CASE: 延迟压缩NULL位图数据// 将NULL位图数据复制到压缩缓冲区中rc = memcpy_s(buf, m_bpNullRawSize, m_nulls, m_bpNullRawSize);securec_check(rc, "\0", "\0");m_bpNullCompressedSize = m_bpNullRawSize;}return (buf + m_bpNullCompressedSize);
}

CU::CompressData 函数

  CU::CompressData 函数的作用是对列存储数据进行压缩。以下是该函数的详细解释:

这个函数执行以下操作:

  1. 根据压缩模式选择适当的压缩方法,对数据进行压缩
  2. 如果支持时序数据类型TIMESTAMPFLOAT),可能执行特殊的时序压缩
  3. 如果压缩成功计算压缩后 CU大小并设置相应的压缩信息
  4. 如果采样尚未完成,对样本进行采样并设置采纳的压缩方法
  5. 返回一个布尔值,指示是否成功压缩

  这个函数用于在列存储中对数据进行压缩,以减小存储占用空间。根据数据类型压缩模式,它可能使用不同的压缩算法。如果数据成功压缩,将设置压缩后 CU大小和相应的元信息。这有助于在存储和检索数据时提高性能和减少存储成本。其函数源码如下所示:(路径:src/gausskernel/storage/cstore/cu.cpp

/** @Description: 压缩一个CU(列存储单元)数据。* @IN compress_modes: 压缩模式* @IN nVals: 值的数量* @OUT outBuf: 输出缓冲区* @Return: 布尔值,表示是否成功压缩* @See also:*/
bool CU::CompressData(_out_ char* outBuf, _in_ int nVals, _in_ int16 compress_modes, int align_size)
{int compressOutSize = 0; // 用于存储压缩后的数据大小bool beDelta2Compressed = false; // 用于表示是否使用了特殊的时序压缩方法,例如Delta压缩bool beXORCompressed = false; // 用于表示是否使用了XOR压缩方法/* 从压缩模式获取压缩值 */int8 compression = heaprel_get_compression_from_modes(compress_modes);// 准备输入参数CompressionArg2 output = {0};output.buf = outBuf;output.sz = (m_compressedBuf + m_compressedBufSize) - outBuf;CompressionArg1 input = {0};input.sz = m_srcDataSize;input.buf = m_srcData;input.mode = compress_modes;// 获取压缩过滤器compression_options* ref_filter = (compression_options*)m_tmpinfo->m_options;// 检查是否支持时序数据类型,例如TIMESTAMP或FLOATif (g_instance.attr.attr_common.enable_tsdb && (ATT_IS_TIMESTAMP(m_atttypid) || ATT_IS_FLOAT(m_atttypid))) {// 使用特殊的时序压缩方法SequenceCodec sequenceCoder(m_eachValSize, m_atttypid);compressOutSize = sequenceCoder.compress(input, output);if (ATT_IS_TIMESTAMP(m_atttypid)) {beDelta2Compressed = true;} else if (ATT_IS_FLOAT(m_atttypid)) {beXORCompressed = true;}}// 如果没有进行时序压缩或时序压缩失败,继续以下操作if (compressOutSize < 0 || (!beDelta2Compressed && !beXORCompressed)) {// 重置输出参数output = {0};output.buf = outBuf;output.sz = (m_compressedBuf + m_compressedBufSize) - outBuf;// 检查是否使用整型压缩模式if (m_infoMode & CU_IntLikeCompressed) {if (ATT_IS_CHAR_TYPE(m_atttypid)) {// 对CHAR类型使用整数压缩IntegerCoder intCoder(8);/* 设置最小/最大值 */if (m_tmpinfo->m_valid_minmax) {intCoder.SetMinMaxVal(m_tmpinfo->m_min_value, m_tmpinfo->m_max_value);}/* 提供RLE编码的提示 */intCoder.m_adopt_rle = ref_filter->m_adopt_rle;compressOutSize = intCoder.Compress(input, output);} else if (ATT_IS_NUMERIC_TYPE(m_atttypid)) {if (compression > COMPRESS_LOW) {/// 数值数据类型压缩。/// 直接使用lz4/zlib。input.buildGlobalDict = false;input.useGlobalDict = false;input.globalDict = NULL;input.useDict = false;input.numVals = HasNullValue() ? (nVals - CountNullValuesBefore(nVals)) : nVals;StringCoder strCoder;compressOutSize = strCoder.Compress(input, output);}} else {// 未来,其他类型}} else if (m_eachValSize > 0 && m_eachValSize <= 8) {// 使用整数压缩IntegerCoder intCoder(m_eachValSize);/* 设置最小/最大值 */if (m_tmpinfo->m_valid_minmax) {intCoder.SetMinMaxVal(m_tmpinfo->m_min_value, m_tmpinfo->m_max_value);}/* 提供RLE编码的提示 */intCoder.m_adopt_rle = ref_filter->m_adopt_rle;compressOutSize = intCoder.Compress(input, output);} else {// 未来,其他情况Assert(-1 == m_eachValSize || m_eachValSize > 8);input.buildGlobalDict = false;input.useGlobalDict = false;input.globalDict = NULL;// 对于大小大于8的定长数据类型,// 直接使用lz4/zlib方法,不包括字典方法。// 对于大小为-1的可变长度数据类型,可以应用字典方法// 首先尝试使用字典方法。input.useDict = (m_eachValSize > 8) ? false : (COMPRESS_LOW != compression);// 值的数量不包括NULL值的数量。input.numVals = HasNullValue() ? (nVals - CountNullValuesBefore(nVals)) : nVals;// 使用StringCoder.CompressStringCoder strCoder;/* 提供关于RLE和字典编码的提示 */strCoder.m_adopt_rle = ref_filter->m_adopt_rle;strCoder.m_adopt_dict = ref_filter->m_adopt_dict;compressOutSize = strCoder.Compress(input, output);}}if (compressOutSize > 0) {// 压缩成功,计算CU大小并设置压缩信息Assert((uint32)compressOutSize < m_srcDataSize);Assert((0 == (output.modes & CU_INFOMASK2)) && (0 != (output.modes & CU_INFOMASK1)));m_infoMode |= (output.modes & CU_INFOMASK1);m_cuSizeExcludePadding = (outBuf - m_compressedBuf) + compressOutSize;m_cuSize = CUAlignUtils::AlignCuSize(m_cuSizeExcludePadding, align_size);Assert(m_cuSize <= m_compressedBufSize);PADDING_CU(m_compressedBuf + m_cuSizeExcludePadding, m_cuSize - m_cuSizeExcludePadding);if (!ref_filter->m_sampling_fihished) {/* 对样本进行采样并设置采纳的压缩方法 */ref_filter->set_common_flags(output.modes);}return true;}return false;
}

这篇关于【 OpenGauss源码学习 —— 列存储(CU)(二)】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/228144

相关文章

Java调用C++动态库超详细步骤讲解(附源码)

《Java调用C++动态库超详细步骤讲解(附源码)》C语言因其高效和接近硬件的特性,时常会被用在性能要求较高或者需要直接操作硬件的场合,:本文主要介绍Java调用C++动态库的相关资料,文中通过代... 目录一、直接调用C++库第一步:动态库生成(vs2017+qt5.12.10)第二步:Java调用C++

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

Oracle存储过程里操作BLOB的字节数据的办法

《Oracle存储过程里操作BLOB的字节数据的办法》该篇文章介绍了如何在Oracle存储过程中操作BLOB的字节数据,作者研究了如何获取BLOB的字节长度、如何使用DBMS_LOB包进行BLOB操作... 目录一、缘由二、办法2.1 基本操作2.2 DBMS_LOB包2.3 字节级操作与RAW数据类型2.

Java实现数据库图片上传与存储功能

《Java实现数据库图片上传与存储功能》在现代的Web开发中,上传图片并将其存储在数据库中是常见的需求之一,本文将介绍如何通过Java实现图片上传,存储到数据库的完整过程,希望对大家有所帮助... 目录1. 项目结构2. 数据库表设计3. 实现图片上传功能3.1 文件上传控制器3.2 图片上传服务4. 实现

Spring 中 BeanFactoryPostProcessor 的作用和示例源码分析

《Spring中BeanFactoryPostProcessor的作用和示例源码分析》Spring的BeanFactoryPostProcessor是容器初始化的扩展接口,允许在Bean实例化前... 目录一、概览1. 核心定位2. 核心功能详解3. 关键特性二、Spring 内置的 BeanFactory

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

C语言中的浮点数存储详解

《C语言中的浮点数存储详解》:本文主要介绍C语言中的浮点数存储详解,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、首先明确一个概念2、接下来,讲解C语言中浮点型数存储的规则2.1、可以将上述公式分为两部分来看2.2、问:十进制小数0.5该如何存储?2.3 浮点

MySQL常见的存储引擎和区别说明

《MySQL常见的存储引擎和区别说明》MySQL支持多种存储引擎,如InnoDB、MyISAM、MEMORY、Archive、CSV和Blackhole,每种引擎有其特点和适用场景,选择存储引擎时需根... 目录mysql常见的存储引擎和区别说明1. InnoDB2. MyISAM3. MEMORY4. A

Golang基于内存的键值存储缓存库go-cache

《Golang基于内存的键值存储缓存库go-cache》go-cache是一个内存中的key:valuestore/cache库,适用于单机应用程序,本文主要介绍了Golang基于内存的键值存储缓存库... 目录文档安装方法示例1示例2使用注意点优点缺点go-cache 和 Redis 缓存对比1)功能特性