从内核看io_uring的实现---第一篇(基于5.9.9)

2024-03-27 21:08

本文主要是介绍从内核看io_uring的实现---第一篇(基于5.9.9),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:最近研究了一下Linux的高性能异步IO框架io_uring,并尝试引入Node.js中应用起来。所以本文打算介绍一下io_uring在内核的实现,因为io_uring实现代码量大,逻辑复杂,所以只能慢慢分析。这一篇介绍io_uring初始化接口io_uring_setup的实现。

io_uring_setup的声明非常简单,但是实现的细节却非常复杂,下面我们开始分析。

static long io_uring_setup(u32 entries, struct io_uring_params __user *params)
{struct io_uring_params p;int i;if (copy_from_user(&p, params, sizeof(p)))return -EFAULT;// 支持的flagif (p.flags & ~(IORING_SETUP_IOPOLL | IORING_SETUP_SQPOLL |IORING_SETUP_SQ_AFF | IORING_SETUP_CQSIZE |IORING_SETUP_CLAMP | IORING_SETUP_ATTACH_WQ))return -EINVAL;return  io_uring_create(entries, &p, params);
}

io_uring_setup是对io_uring_create的封装。第一个参数entries指定请求队列的长度,第二个参数params是用于调用方和内核通信的结构体。我们看一下定义。

struct io_uring_params {// 定义请求队列长度(2的sq_entries次方),调用方定义__u32 sq_entries;// 完成队列长度,默认是2 * 请求队列长度__u32 cq_entries;// 控制内核行为的标记__u32 flags;// poll模式下开启的内核线程绑定的cpu__u32 sq_thread_cpu;// poll模式下开启的内核线程空闲时间,之后会挂起。__u32 sq_thread_idle;// 内核当前支持的能力,内核设置__u32 features;__u32 wq_fd;__u32 resv[3];// 记录内核数据的结构体,调用方后续调用mmap需要用到。struct io_sqring_offsets sq_off;struct io_cqring_offsets cq_off;
};

我们接着看io_uring_create。

static int io_uring_create(unsigned entries, struct io_uring_params *p,struct io_uring_params __user *params)
{struct user_struct *user = NULL;struct io_ring_ctx *ctx;bool limit_mem;int ret;p->sq_entries = roundup_pow_of_two(entries);// 自定义完成队列长度if (p->flags & IORING_SETUP_CQSIZE) {p->cq_entries = roundup_pow_of_two(p->cq_entries);// 完成队列不能小于请求队列if (p->cq_entries < p->sq_entries)return -EINVAL;// 超过阈值则需要设置IORING_SETUP_CLAMP标记if (p->cq_entries > IORING_MAX_CQ_ENTRIES) {if (!(p->flags & IORING_SETUP_CLAMP))return -EINVAL;p->cq_entries = IORING_MAX_CQ_ENTRIES;}} else {// 默认是两倍的请求队列长度p->cq_entries = 2 * p->sq_entries;}// 用户信息user = get_uid(current_user());// 分配一个ctx记录上下文,因为调用方只能拿到fd,后续操作fd的时候会拿到关联的上下文ctx = io_ring_ctx_alloc(p);ctx->user = user;// 和poll模式相关的数据结构ctx->sqo_task = get_task_struct(current);// 分配一个io_ringsret = io_allocate_scq_urings(ctx, p);// 处理poll模式的逻辑ret = io_sq_offload_start(ctx, p);// 后面还有很多,一会分析
}

io_uring_create代码比较多,我们分步分析。首先分配了一个io_ring_ctx结构体,这是核心的数据结构,用于记录io_uring实例的上下文,不过我们暂时不需要了解它具体的定义,因为实在太多,只关注本文相关的字段。

1 分配一个io_rings结构体

接着调用io_allocate_scq_urings分配一个io_rings结构体,这是非常核心的逻辑,我们看一下io_rings的定义。

struct io_rings {struct io_uring		sq, cq;u32			sq_ring_mask, cq_ring_mask;u32			sq_ring_entries, cq_ring_entries;u32			sq_dropped;u32			sq_flags;u32         cq_flags;u32			cq_overflow;struct io_uring_cqe	cqes[];
};

io_rings主要用于记录请求和完成队列的信息。我们继续看io_allocate_scq_urings。

static int io_allocate_scq_urings(struct io_ring_ctx *ctx,struct io_uring_params *p)
{struct io_rings *rings;size_t size, sq_array_offset;// 记录请求和完成队列大小到ctxctx->sq_entries = p->sq_entries;ctx->cq_entries = p->cq_entries;/* 计算结构体和额外数组的大小,sq_array_offset保存结构体大小,size保存结构体+额外数组+另一个额外数组的大小*/size = rings_size(p->sq_entries, p->cq_entries, &sq_array_offset);// 分配内存rings = io_mem_alloc(size);// ...
}

io_allocate_scq_urings细节比较多,我们分开分析,我们看一下rings_size的逻辑。

static unsigned long rings_size(unsigned sq_entries, unsigned cq_entries,size_t *sq_offset)
{struct io_rings *rings;size_t off, sq_array_size;// 计算结构体和格外数组的大小,见io_rings定义off = struct_size(rings, cqes, cq_entries);// sq_offset记录结构体大小if (sq_offset)*sq_offset = off;// 计算多个u32元素的数组的大小sq_array_size = array_size(sizeof(u32), sq_entries);// 计算结构体大小 + sq_array_size的大小保存到offif (check_add_overflow(off, sq_array_size, &off))return SIZE_MAX;return off;
}

struct_size是计算结构体和额外字段大小的宏,我们刚才看到io_rings结构体的定义中,最后一个字段是struct io_uring_cqe cqes[],看起来是个空数组,其实他的内存是紧跟着结构体后面分配的,结构如下。

下面我们看struct_size是如何计算的。

#define struct_size(p, member, count)					\__ab_c_size(count,						\sizeof(*(p)->member) + __must_be_array((p)->member),\sizeof(*(p)))static inline __must_check size_t __ab_c_size(size_t a, size_t b, size_t c)
{size_t bytes;// 计算a * b保存到bytesif (check_mul_overflow(a, b, &bytes))return SIZE_MAX;// 计算bytes + c保存搭配bytesif (check_add_overflow(bytes, c, &bytes))return SIZE_MAX;return bytes;
}

我们看到计算方式就是数组元素大小*元素个数+结构体本身的大小。计算完结构体大小后又通过array_size计算了另一个数组的大小并加起来,所以io_rings的结构体如下所示。

分配了io_rings之后我们继续看接下来的逻辑。

static int io_allocate_scq_urings(struct io_ring_ctx *ctx,struct io_uring_params *p)
{// ...// 记录到ctx中ctx->rings = rings;// sq_array记录rings结构体中,u32数组的首地址ctx->sq_array = (u32 *)((char *)rings + sq_array_offset);// 用于回环处理rings->sq_ring_mask = p->sq_entries - 1;rings->cq_ring_mask = p->cq_entries - 1;// 队列长度rings->sq_ring_entries = p->sq_entries;rings->cq_ring_entries = p->cq_entries;ctx->sq_mask = rings->sq_ring_mask;ctx->cq_mask = rings->cq_ring_mask;// 请求队列的数组大小size = array_size(sizeof(struct io_uring_sqe), p->sq_entries);// 分配内存并记录到sq_sqesctx->sq_sqes = io_mem_alloc(size);return 0;
}

进行了一系列设置后,架构如下。

创建完io_rings结构体后,我们继续回到io_uring_create中。

2 设置io_uring_params

内核申请完系列结构体后,需要通过io_uring_params结构体返回给调用方。

static int io_uring_create(unsigned entries, struct io_uring_params *p,struct io_uring_params __user *params) {ret = io_allocate_scq_urings(ctx, p);// 初始化poll模式相关逻辑,如果开启了的话ret = io_sq_offload_start(ctx, p);memset(&p->sq_off, 0, sizeof(p->sq_off));// 记录字段在结构体的偏移p->sq_off.head = offsetof(struct io_rings, sq.head);p->sq_off.tail = offsetof(struct io_rings, sq.tail);p->sq_off.ring_mask = offsetof(struct io_rings, sq_ring_mask);p->sq_off.ring_entries = offsetof(struct io_rings, sq_ring_entries);p->sq_off.flags = offsetof(struct io_rings, sq_flags);p->sq_off.dropped = offsetof(struct io_rings, sq_dropped);p->sq_off.array = (char *)ctx->sq_array - (char *)ctx->rings;memset(&p->cq_off, 0, sizeof(p->cq_off));p->cq_off.head = offsetof(struct io_rings, cq.head);p->cq_off.tail = offsetof(struct io_rings, cq.tail);p->cq_off.ring_mask = offsetof(struct io_rings, cq_ring_mask);p->cq_off.ring_entries = offsetof(struct io_rings, cq_ring_entries);p->cq_off.overflow = offsetof(struct io_rings, cq_overflow);p->cq_off.cqes = offsetof(struct io_rings, cqes);p->cq_off.flags = offsetof(struct io_rings, cq_flags);// 内核支持的属性p->features = IORING_FEAT_SINGLE_MMAP | IORING_FEAT_NODROP |IORING_FEAT_SUBMIT_STABLE | IORING_FEAT_RW_CUR_POS |IORING_FEAT_CUR_PERSONALITY | IORING_FEAT_FAST_POLL |IORING_FEAT_POLL_32BITS;copy_to_user(params, p, sizeof(*p))// 获取fdret = io_uring_get_fd(ctx);return ret;
}

io_uring_create继续进行了一系列赋值,赋值完后架构如下。

3 获取文件描述符

内核通过io_uring_get_fd获取文件描述符返回给调用方。

static int io_uring_get_fd(struct io_ring_ctx *ctx)
{struct file *file;// 获取一个可用fdint ret = get_unused_fd_flags(O_RDWR | O_CLOEXEC);// 分配一个file结构体,设置函数集为io_uring_fops,并关联上下文ctxfile = anon_inode_getfile("[io_uring]", &io_uring_fops, ctx,O_RDWR | O_CLOEXEC);// 关联fd和file结构体fd_install(ret, file);return ret;
}

io_uring_get_fd申请了一个fd和file,这是遵循vfs的设计,最重要的是把io_uring的函数集挂在到file上,后续通过fd操作的io_uring实例的时候,经过vfs后就会执行对应的函数,另外还需要把ctx和file关联起来,因为后续通过fd操作io_uring时,需要拿到fd对应的io_uring上下文。至此。

io_uring_setup就分析完了,但是还不能使用。io_uring在设计中,为了减少系统调用和用户、内核数据通信的成本,实现了用户、内核共享数据结构的方式,这样用户和内核就可以操作同一份数据结构达到通信目的,而不用通过系统调用,更不需要设计来回复制。为了达到这个目的,用户拿到io_uring实例后,还需要调用mmap获取对应的内存映射。我们通过liburing库的逻辑来分析。

4 从liburing库看io_uring的使用

int io_uring_queue_init_params(unsigned entries, struct io_uring *ring,struct io_uring_params *p)
{int fd, ret;// 调用io_uring_setup,拿到fdfd = __sys_io_uring_setup(entries, p);if (fd < 0)return -errno;// 内存映射ret = io_uring_queue_mmap(fd, p, ring);// 保存系统支持的属性ring->features = p->features;return 0;
}

我们重点看一下io_uring_queue_mmap。

int io_uring_queue_mmap(int fd, struct io_uring_params *p, struct io_uring *ring)
{int ret;memset(ring, 0, sizeof(*ring));ret = io_uring_mmap(fd, p, &ring->sq, &ring->cq);// 记录flags和fdif (!ret) {ring->flags = p->flags;ring->ring_fd = fd;}return ret;
}

继续看io_uring_mmap。

static int io_uring_mmap(int fd, struct io_uring_params *p,struct io_uring_sq *sq, struct io_uring_cq *cq)
{size_t size;int ret;// 请求队列需要映射的内存大小,即整个结构体struct io_rings结构体的大小sq->ring_sz = p->sq_off.array + p->sq_entries * sizeof(unsigned);// 请求队列和完成队列映射的内存大小一样,等于请求队列的cq->ring_sz = sq->ring_sz;// 映射并拿到虚拟地址,大小是sq->ring_szsq->ring_ptr = mmap(0, sq->ring_sz, PROT_READ | PROT_WRITE,MAP_SHARED | MAP_POPULATE, fd, IORING_OFF_SQ_RING);cq->ring_ptr = sq->ring_ptr;// 通过首地址和偏移拿到对应字段的地址sq->khead = sq->ring_ptr + p->sq_off.head;sq->ktail = sq->ring_ptr + p->sq_off.tail;sq->kring_mask = sq->ring_ptr + p->sq_off.ring_mask;sq->kring_entries = sq->ring_ptr + p->sq_off.ring_entries;sq->kflags = sq->ring_ptr + p->sq_off.flags;sq->kdropped = sq->ring_ptr + p->sq_off.dropped;sq->array = sq->ring_ptr + p->sq_off.array;// 映射保存请求队列节点的内存size = p->sq_entries * sizeof(struct io_uring_sqe);sq->sqes = mmap(0, size, PROT_READ | PROT_WRITE,MAP_SHARED | MAP_POPULATE, fd,IORING_OFF_SQES);// 同上cq->khead = cq->ring_ptr + p->cq_off.head;cq->ktail = cq->ring_ptr + p->cq_off.tail;cq->kring_mask = cq->ring_ptr + p->cq_off.ring_mask;cq->kring_entries = cq->ring_ptr + p->cq_off.ring_entries;cq->koverflow = cq->ring_ptr + p->cq_off.overflow;cq->cqes = cq->ring_ptr + p->cq_off.cqes;if (p->cq_off.flags)cq->kflags = cq->ring_ptr + p->cq_off.flags;return 0;
}

io_uring_mmap除了保存一些常用的字段信息外,最重要的是做了内存映射。我们看看mmap的最后一个参数分别是IORING_OFF_SQ_RING和IORING_OFF_SQES,接下来我们看看io_uring的mmap钩子的实现。


static int io_uring_mmap(struct file *file, struct vm_area_struct *vma)
{size_t sz = vma->vm_end - vma->vm_start;unsigned long pfn;void *ptr;ptr = io_uring_validate_mmap_request(file, vma->vm_pgoff, sz);pfn = virt_to_phys(ptr) >> PAGE_SHIFT;return remap_pfn_range(vma, vma->vm_start, pfn, sz, vma->vm_page_prot);
}static void *io_uring_validate_mmap_request(struct file *file,loff_t pgoff, size_t sz)
{struct io_ring_ctx *ctx = file->private_data;loff_t offset = pgoff << PAGE_SHIFT;struct page *page;void *ptr;switch (offset) {case IORING_OFF_SQ_RING:case IORING_OFF_CQ_RING:ptr = ctx->rings;break;case IORING_OFF_SQES:ptr = ctx->sq_sqes;break;default:return ERR_PTR(-EINVAL);}page = virt_to_head_page(ptr);if (sz > page_size(page))return ERR_PTR(-EINVAL);return ptr;
}

这里设计的内容涉及到了复杂的内存管理,从代码中我们大概知道,返回的地址分别是ctx->rings和ctx->sq_sqes。即我们操作mmap返回的虚拟地址时,映射到内核的数据结构是ctx的字段。这样就完成了数据共享。最后形成的架构图如下。

至此,分析就告一段落,io_uring的实现实在是复杂,需要反复阅读和思考,才能慢慢理解和了解它的原理。

后记:io_uring作为新一代IO框架,未来应该会在各大软件中使用,尤其是对性能有极高要求的服务器,所以是非常值得关注和学习的。最近也尝试在Node.js中引入io_uring,目前支持文件的读写,有兴趣的同学可以了解一下https://github.com/theanarkh/nodejs_io_uring。

这篇关于从内核看io_uring的实现---第一篇(基于5.9.9)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/853387

相关文章

Java中使用Java Mail实现邮件服务功能示例

《Java中使用JavaMail实现邮件服务功能示例》:本文主要介绍Java中使用JavaMail实现邮件服务功能的相关资料,文章还提供了一个发送邮件的示例代码,包括创建参数类、邮件类和执行结... 目录前言一、历史背景二编程、pom依赖三、API说明(一)Session (会话)(二)Message编程客

Java中List转Map的几种具体实现方式和特点

《Java中List转Map的几种具体实现方式和特点》:本文主要介绍几种常用的List转Map的方式,包括使用for循环遍历、Java8StreamAPI、ApacheCommonsCollect... 目录前言1、使用for循环遍历:2、Java8 Stream API:3、Apache Commons

C#提取PDF表单数据的实现流程

《C#提取PDF表单数据的实现流程》PDF表单是一种常见的数据收集工具,广泛应用于调查问卷、业务合同等场景,凭借出色的跨平台兼容性和标准化特点,PDF表单在各行各业中得到了广泛应用,本文将探讨如何使用... 目录引言使用工具C# 提取多个PDF表单域的数据C# 提取特定PDF表单域的数据引言PDF表单是一

使用Python实现高效的端口扫描器

《使用Python实现高效的端口扫描器》在网络安全领域,端口扫描是一项基本而重要的技能,通过端口扫描,可以发现目标主机上开放的服务和端口,这对于安全评估、渗透测试等有着不可忽视的作用,本文将介绍如何使... 目录1. 端口扫描的基本原理2. 使用python实现端口扫描2.1 安装必要的库2.2 编写端口扫

PyCharm接入DeepSeek实现AI编程的操作流程

《PyCharm接入DeepSeek实现AI编程的操作流程》DeepSeek是一家专注于人工智能技术研发的公司,致力于开发高性能、低成本的AI模型,接下来,我们把DeepSeek接入到PyCharm中... 目录引言效果演示创建API key在PyCharm中下载Continue插件配置Continue引言

MySQL分表自动化创建的实现方案

《MySQL分表自动化创建的实现方案》在数据库应用场景中,随着数据量的不断增长,单表存储数据可能会面临性能瓶颈,例如查询、插入、更新等操作的效率会逐渐降低,分表是一种有效的优化策略,它将数据分散存储在... 目录一、项目目的二、实现过程(一)mysql 事件调度器结合存储过程方式1. 开启事件调度器2. 创

使用Python实现操作mongodb详解

《使用Python实现操作mongodb详解》这篇文章主要为大家详细介绍了使用Python实现操作mongodb的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、示例二、常用指令三、遇到的问题一、示例from pymongo import MongoClientf

SQL Server使用SELECT INTO实现表备份的代码示例

《SQLServer使用SELECTINTO实现表备份的代码示例》在数据库管理过程中,有时我们需要对表进行备份,以防数据丢失或修改错误,在SQLServer中,可以使用SELECTINT... 在数据库管理过程中,有时我们需要对表进行备份,以防数据丢失或修改错误。在 SQL Server 中,可以使用 SE

基于Go语言实现一个压测工具

《基于Go语言实现一个压测工具》这篇文章主要为大家详细介绍了基于Go语言实现一个简单的压测工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录整体架构通用数据处理模块Http请求响应数据处理Curl参数解析处理客户端模块Http客户端处理Grpc客户端处理Websocket客户端

Java CompletableFuture如何实现超时功能

《JavaCompletableFuture如何实现超时功能》:本文主要介绍实现超时功能的基本思路以及CompletableFuture(之后简称CF)是如何通过代码实现超时功能的,需要的... 目录基本思路CompletableFuture 的实现1. 基本实现流程2. 静态条件分析3. 内存泄露 bug