【手写数据库所需C语言基础】可变结构体,结构体成员计算,类型强制转换为统一类型,数据库中使用C语言方法和技巧

本文主要是介绍【手写数据库所需C语言基础】可变结构体,结构体成员计算,类型强制转换为统一类型,数据库中使用C语言方法和技巧,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

专栏内容

  • 手写数据库toadb
    本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。
    本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学习。

开源贡献

  • toadb开源库

个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.

文章目录

  • 前言
  • 概述
  • 结构体定义
    • 结构体别名
    • 结构体指针
    • 结构体嵌套定义
    • 可变长结构体定义
  • 结构体大小
    • 字节大小端
    • 结构体大小
    • 结构体紧凑格式
  • 结构体地址
    • 结构体成员首地址
    • 获取成员地址
  • 结构体赋值
    • 结构体变量赋值
    • 结体体指针成员
  • 结构体类型转换
  • 总结
  • 结尾

前言

经过前面几个专栏,我们了解了数据库作为基础软件,类似于操作系统,几乎涉及到数据的应用都会使用;我们也通过手写数据库内核,开源了一款数据库,名叫toadb,它是一个轻量级的、开源的关系型数据库,它提供了基本的SQL支持和数据存储管理功能。相比于其他成熟的数据库产品,toadb更加简单和易于理解,适合初学者和数据库内核开发人员使用。通过学习和使用toadb,我们可以更好地理解数据库的基本原理,掌握数据库的核心技术,为以后的数据库设计和优化工作打下坚实的基础。

toadb是使用C语言编写,在内核开发过程中,我们发现一些初学者,对于数据库中使用C语言方法和技巧,阅读代码时需要学习。本专栏就特别将这些方法和技巧整理出来,方便初学者系统的了解和学习,以便很快能上手数据库内核的开发,不致于在开发语言层面遇到很多障碍,更多精力在数据库理论的实践。

本专栏建议为学习过C语言基础知识的读者,可以进一步深入学习,更贴进实际项目的开发应用。

概述

本文主要分享一下,C语言中最常用的数据结构常用的使用方法和技巧。C语言为了定义复杂的数据类型,引入了数据结构 struct,可以通过对基础数据类型的组合,自定义符合现实的组合类型。因为是对于多个基础数据类型的组合,所以引出了很多问题,如数据结构的大小如何计算,成员的地址是多少,字节大小端带来的影响如何消除等等。

通过以下四部分来系统的了解结构的知识:

  • 结结体定义
  • 结构体地址
  • 结构体大小
  • 结构体赋值
  • 结构体类型转换

结构体定义

如何定义出一个符合我们代码要求的结构体类型,同时在使用中可以简单明了,下面我们一起来看一下实际中如何定义。

结构体别名

在C语言中结构体的定义很简单,如下:

#define NAME_MAX_LEN  64
struct ColumnDefInfo
{char colName[NAME_MAX_LEN];int type;int options;
};

这样就定义了一个名为ColumnDefInfo的结构定,当我们定义该类型的变量时,会如下使用

struct ColumnDefInfo stColumn; 

每次都要多写struct这个单词,当写上几十上百遍时,是不是也很烦的;这就用到C语言的一个特性,给这个结构体定义一个别名,平常使用别名就可以

typedef struct ColumnDefInfo
{char colName[NAME_MAX_LEN];int type;int options;
}ColumnDefInfo;         ColumnDefInfo stColumn;  // 定义变量 

在定义结构体struct ColumnDefInfo的同时定义别名为ColumnDefInfo,这样在定义变量或引用结构体类型的地方,就可以直接使用别名即可,是不是看这简洁很多,当然为了区分结构体类型,可以加上st等前缀,统一命名。

结构体指针

C语言的实际使用中,避免不了指针类型,结构体类型的指针也是我们常用的,当函数参数需要传递结构体时,需要动态分配空间时等等,普通写法如下:

ColumnDefInfo *pstColumn = NULL; // 定义变量 

每次都会像普通类型定义指针一样,当然也没有错,因为结构体名已经是复杂类型了,如何通过类型就能区分是值还是指针类型呢? 高手一般会如下定义。

typedef struct ColumnDefInfo *PColumnDefInfo;

或者在结构体定义时,同时定义好对应的指针类型。

typedef struct ColumnDefInfo
{char colName[NAME_MAX_LEN];int type;int options;
}ColumnDefInfo, *PColumnDefInfo;PColumnDefInfo pstColumn = NULL;  // 定义变量 

这时定义结构体指针,直接使用对应的指针类型PColumnDefInfo,这样是不是又可以简洁一些,在函数入参中,看到这样的结构体名,我们立马就可以知道它是指针类型了。

结构体嵌套定义

结构体可以定义出来很复杂的类型,但是现实世界更复杂,很多事务都有层次关系,这就必须用到嵌套的结构体定义。

比如表是有行数据组成,那么表的结构体定义中,嵌套有行的结构体定义,如下:

#define FLEXIBLE_SIZE 10
typedef struct TableMetaInfo
{int tableId;int tableType;char tableName[NAME_MAX_LEN];int colNum;ColumnDefInfo column[FLEXIBLE_SIZE];
}TableMetaInfo, *PTableMetaInfo;

这次在定义时,就直接使用了上面介绍的技巧,别名,指针类型定义。我们定义了一个表的结构体TableMetaInfo,表有名字,ID等,还有行数量,以及行的数据结构定义,因为行的数量不确定,所以这里定义是一个数组。

对于嵌套结构体,在引用成员时,就有一些麻烦,如果在几层的嵌套,可以写一长串。

PTableMetaInfo stTblInfo;
int i; // 其它代码 stTblInfo->colum[i].type = 1;

这里需要注意的是,在嵌套结构体时,要注意内层成员结构体是值类型,还是指针类型,如果是值类型就要用.来引用成员,如果是指针定类的话用->引用成员,在实际使用中,我们可以看到在一条语句中两个混合使用的情况,这就是根据不同的类型进行选择。

可变长结构体定义

每一个表中的数据行,在结构体定义时,我们是不能预知的,它可以有一行,也可以有一万行,那如何定义这个数据结构呢,这就是可变长结构体定义;可变长的数据结构定义中,有一个成员来记录变长部分的大小,如行的数量colNum,而column是行数据,它的数量在每个表中都是不一样的,由动态决定大小。

使用变长结构体方法来定义,如下

#define FLEXIBLE_SIZE 
typedef struct TableMetaInfo
{int tableId;int tableType;char tableName[NAME_MAX_LEN];int colNum;ColumnDefInfo column[FLEXIBLE_SIZE];
}TableMetaInfo, *PTableMetaInfo;

其中,行数据数组 column[FLEXIBLE_SIZE] 的维度定义FLEXIBLE_SIZE 并没有给出明确的值,这里相当于可变数组的定义

int array[] = {1,2,3};

此时,TableMetaInfo结构体默认大小中,其实没有包括行的结构定义大小,我们通过程序简单输出它们的size。

printf("table size=%d, column size=%d\n", sizeof(TableMetaInfo), sizeof(ColumnDefInfo));

得到的结果如下

table size=76, column size=72

可以看到TableMetaInfo结构体默认大小只有前四个成员的大小,并不包括行数据结构的大小。那么问题来了,如何定义变量呢?

在定义变量时,我们一般动态申请内存,再通过成员数组来访问。

结构体大小

不管是动态申请内容,还是局部变量的定义,我们都需要知道结构体占多少内存空间,尤其是在多并发之间进行交互时,要尽量减少交互数据量。
下面介绍一下结构体大小,在实际应用中的那些事儿。

字节大小端

在介绍结构体大小时,我们首先要知道计算机存储我们的变量值时,并不是按照从左到右完成从高位到低位的存储,而是不同操作系统规定了自己的一个字节顺序。

在常用的X86 CPU架构中,常用的就是小端存储,即0x1234, 在内存中低位是0x34,高位是0x12,进行了反转。

这在一些结构体转为其它类型时,常常会遇到字节序问题,还有一些网络数据转为结构体数据时,明明看似没有问题,但是成员的值就是不对,这就是不同数据对应的字节序在作怪。

结构体大小

对于结构体这一复杂的自定义类型,计算机对访问内存做了一定的优化,也就是字节对齐。如下结构体,

typedef struct A 
{char a;int b;double c;
}st_A;

这个结构体st_A中只有三个成员,sizeof(st_A)算出来是16字节,符合你的预期吗? 单从代码看,只有13字节,如何多出了3字节呢? 这就是计算机内部优化的结果,成员b的地址被对齐到了四字节上,也就是成员ab的地址相差4,而不是字面上的1字节,这样就多出了3字节。

如果定义了一个结构体类型的唯一标识,而其中成员的类型不同时,将这个标识按字节进行计算hash值时,就会存在问题,因为多出来的3字节,永远不知道它的值到底是什么,那么虽然成员的值都是一样的,但是算出来的hash却有可能不同。

结构体紧凑格式

上面介绍了,计算机会对结构体采用字节对齐的优化,当然这是一种空间换时间的方式。如果我们对于空间比较敏感时,就要放弃这种默认的优化了,这就定义成紧凑格式。

typedef struct __attribute__((packed)) A 
{char a;int b;double c;
}st_A;

这样就告诉编译器,不要在成员间加多余的字节。有多种写法,也可以用 __attribute__((aligned(1)))

结构体地址

C语言中经常使用地址来访问内存,如结构体的指针,也即地址,那么对于结构体类型的变量,它会有几种地址需要我们注意了。

结构体成员首地址

想必大家会有疑问,结构体的首地址,就是结构体指针内容嘛,不是很简单吗?

没错,是的,我们举个例子来说明。

/* 10个table ,平均每个table 中有4行数据 */
PTableMetaInfo tbl = (PTableMetaInfo)malloc(sizeof(TableMetaInfo) * 10 + sizeof(ColumnDefInfo) * 40);PTableMetaInfo pstTbl = tbl;  

这里用指针pstTbl来遍历数组tbl,那么pstTbl++都会移动sizeof(TableMetaInfo)字节,这样使用是正确的吗?

前面我们介绍了变长结构体,这里的sizeof(TableMetaInfo)中,是不包括最后一个成员的长度的,所以下一个数据结构的首地址不是通过默认的偏移得到的,这里就需要计算了,根据成员colNum来计算需要偏移多少了。

#define GET_NEXT_TABLE(addr) ((addr) + sizeof(TableMetaInfo) + (addr)->colNum * sizeof(ColumnDefInfo))

GET_NEXT_TABLE这个宏定义,就是进行可变长结构体的数组偏移计算,而不是简单的通过默认运算得到。

获取成员地址

结构体成员的地址,可以通过->.引用的方式获得,当然也可以计算获得,比如ColumnDefInfo结构体中,成员type与结构体首地址相差64字节,就可以通过首地址来计算。

通过计算方式获取成员的地址时,尤其在非紧凑格式的定义的结构体时,就需要特别注意结构体成员并不一定是基础类型的字节数,要根据结构体类型字节对齐规则进行计算;对于可变长结构体,不能使用指针的默认+1移动方式,需要自己计算偏移,这在另一篇博客《C语言可变数组 嵌套的可变数组》中有详细介绍。

结构体赋值

结构体的赋值方法不同于基础类型,也有很多方式进行赋值,需要正确的使用。

结构体变量赋值

一般结构体类型的变量,我们都会清零操作,有两种方法进行初始化为零,如下示例:

struct ColumnDefInfo stColumn = {0}; memset(&stColumn, 0x00, sizeof(stColumn));
  • 在定义时,使用初始化方式进行置零,这种方式如果只写一个0,所有内容都会置零,也可以根据成员数量和类型分别写出初始化的值;
  • 使用内存操作方式,初始化为0,这种方式要能正确计算结构体的大小;

结体体指针成员

当结构体中有指针成员时,在结构体拷贝时就会存在深拷贝和浅拷贝的问题。当一处结构体直接赋值给另一个结构体变量时,它们的指针成员指向的地址是一样的,所以释放内存时需要判空,非空时才释放。

当结构体中有可变长成员时,与指针成员一样,赋值时需要特别注意,两个结构体变量内存大小是否可以容纳新值。

结构体类型转换

在数据库中,尤其执行计划,执行器处理等地方,为了方便统一使用相同的函数调用,将不同类型的结构体会强转成统一的类型,如下所示:

typedef struct Node
{NodeType type;
}Node, *PNode;typedef struct NestLoop
{NodeType    type;PNode       leftplan;PNode       rightplan;PNode       expr;         /* join expr */int         isJoin;int         mergeType;PList       targetList;   /* result columns */
}NestLoop, *PNestLoop;PNestLoop nl = NewNode(NestLoop);
PNode node = (PNode)nl;

为了达到可以相互转换,如示例所示,在结构体NestLoop的第一个成员为type, 与结构体Node的成员是一致的,这样由NestLoop强制转换为Node类型时,就只能看到成员type了。

这样类似的其它节点类型,都可以转为结构体Node,然后根据节点类型选择不同的处理调用,进行执行,这样就可以达到统计处理调用的目的。

总结

在我们进行C语言学习时,只是学习了基础的结构体使用,需要在实际使用中不断加深对它的理解,从内存部局,成员地址对齐,拷贝赋值等各方面进行探索,在数据库中,对于C语言结构体的使用方法非常丰富,在学习数据库内核过程,我们对于C语言的驾驭也会精进。

结尾

非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!

作者邮箱:study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出,互相学习。

这篇关于【手写数据库所需C语言基础】可变结构体,结构体成员计算,类型强制转换为统一类型,数据库中使用C语言方法和技巧的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/369118

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Python调用Orator ORM进行数据库操作

《Python调用OratorORM进行数据库操作》OratorORM是一个功能丰富且灵活的PythonORM库,旨在简化数据库操作,它支持多种数据库并提供了简洁且直观的API,下面我们就... 目录Orator ORM 主要特点安装使用示例总结Orator ORM 是一个功能丰富且灵活的 python O

Nginx设置连接超时并进行测试的方法步骤

《Nginx设置连接超时并进行测试的方法步骤》在高并发场景下,如果客户端与服务器的连接长时间未响应,会占用大量的系统资源,影响其他正常请求的处理效率,为了解决这个问题,可以通过设置Nginx的连接... 目录设置连接超时目的操作步骤测试连接超时测试方法:总结:设置连接超时目的设置客户端与服务器之间的连接

Java中String字符串使用避坑指南

《Java中String字符串使用避坑指南》Java中的String字符串是我们日常编程中用得最多的类之一,看似简单的String使用,却隐藏着不少“坑”,如果不注意,可能会导致性能问题、意外的错误容... 目录8个避坑点如下:1. 字符串的不可变性:每次修改都创建新对象2. 使用 == 比较字符串,陷阱满

Java判断多个时间段是否重合的方法小结

《Java判断多个时间段是否重合的方法小结》这篇文章主要为大家详细介绍了Java中判断多个时间段是否重合的方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录判断多个时间段是否有间隔判断时间段集合是否与某时间段重合判断多个时间段是否有间隔实体类内容public class D

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

IDEA编译报错“java: 常量字符串过长”的原因及解决方法

《IDEA编译报错“java:常量字符串过长”的原因及解决方法》今天在开发过程中,由于尝试将一个文件的Base64字符串设置为常量,结果导致IDEA编译的时候出现了如下报错java:常量字符串过长,... 目录一、问题描述二、问题原因2.1 理论角度2.2 源码角度三、解决方案解决方案①:StringBui

Linux使用nload监控网络流量的方法

《Linux使用nload监控网络流量的方法》Linux中的nload命令是一个用于实时监控网络流量的工具,它提供了传入和传出流量的可视化表示,帮助用户一目了然地了解网络活动,本文给大家介绍了Linu... 目录简介安装示例用法基础用法指定网络接口限制显示特定流量类型指定刷新率设置流量速率的显示单位监控多个

Java覆盖第三方jar包中的某一个类的实现方法

《Java覆盖第三方jar包中的某一个类的实现方法》在我们日常的开发中,经常需要使用第三方的jar包,有时候我们会发现第三方的jar包中的某一个类有问题,或者我们需要定制化修改其中的逻辑,那么应该如何... 目录一、需求描述二、示例描述三、操作步骤四、验证结果五、实现原理一、需求描述需求描述如下:需要在