【Docker 内核详解】cgroups 资源限制(三):实现方式及工作原理简介

本文主要是介绍【Docker 内核详解】cgroups 资源限制(三):实现方式及工作原理简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

实现方式及工作原理简介

  • 1.cgroups 如何判断资源超限及超出限额之后的措施
  • 2.cgroup 与任务之间的关联关系
  • 3.Docker 在使用 cgroup 时的注意事项
  • 4./sys/fs/cgroup/cpu/docker/[container-ID] 下文件的作用

在对 cgroups 规则和子系统有了一定了解以后,下面简单介绍操作系统内核级别上 cgroups 的工作原理,希望能有助于大家理解 cgroups 如何对 Docker 容器中的进程产生作用。cgroups 的实现本质上是 给任务挂上钩子,当任务运行的过程中涉及某种资源时,就会触发钩子上所附带的子系统进行检测,根据资源类别的不同,使用对应的技术进行资源限制和优先级分配

1.cgroups 如何判断资源超限及超出限额之后的措施

对于不同的系统资源,cgroups 提供了统一的接口对资源进行控制和统计,但限制的具体方式则不尽相同。比如 memory 子系统,会在描述内存状态的 mm_struct 结构体中记录它所属的 cgroup,当进程需要申请更多内存时,就会触发 cgroup 用量检测,用量超过 cgroup 规定的限额,则拒绝用户的内存申请,否则就给予相应内存并在 cgroup 的统计信息中记录。实际实现要比以上描述复杂得多,不仅需考虑内存的分配与回收,还需考虑不同类型的内存如 cache(缓存)和 swap(交换区内存拓展)等。

进程所需的内存超过它所属的 cgroup 最大限额以后,如果设置了 OOM Control(内存超限控制),那么进程就会收到 OOM 信号并结束;否则进程就会被挂起,进入睡眠状态,直到 cgroup 中其他进程释放了足够的内存资源为止。Docker 中默认是开启 OOM Control 的。其他子系统的实现与此类似,cgroups 提供了多种资源限制的策略供用户选择。

2.cgroup 与任务之间的关联关系

实现上,cgroup 与任务之间是多对多的关系,所以它们并不直接关联,而是通过一个 中间结构 把双向的关联信息记录起来。每个任务结构体 task_struct 中都包含了一个指针,可以查询到对应 cgroup 的情况,同时也可以查询到各个子系统的状态,这些子系统状态中也包含了找到任务的指针,不同类型的子系统按需定义本身的控制信息结构体,最终在自定义的结构体中把子系统状态指针包含进去,然后内核通过 container_of(这个宏可以通过一个结构体的成员找到结构体自身)等宏定义来获取对应的结构体,关联到任务,以此达到资源限制的目的。

同时,为了让 cgroups 便于用户理解和使用,也为了用精简的内核代码为 cgroup 提供熟悉的权限和命名空间管理,内核开发者们按照 Linux 虚拟文件系统转换器Virtual Filesystem SwitchVFS)接口实现了一套名为 cgroup 的文件系统,非常巧妙地用来表示 cgroups 的层级概念,把各个子系统的实现都封装到文件系统的各项操作中。大家有兴趣可以查阅 VFS 的相关内容,在此就不赘述了。

3.Docker 在使用 cgroup 时的注意事项

在实际的使用过程中,Docker 需要通过挂载 cgroup 文件系统新建一个层级结构,挂载时指定要绑定的子系统。把 cgroup 文件系统挂载上以后,就可以像操作文件一样对 cgroups 的层级进行浏览和操作管理(包括权限管理、子文件管理等)。除了 cgroup 文件系统以外,内核没有为 cgroups 的访问和操作添加任何系统调用。

如果新建的层级结构要绑定的子系统与目前已经存在的层级结构完全相同,那么新的挂载会重用原来已经存在的那一套(指向相同的 css_set)。否则,如果要绑定的子系统已经被别的层级绑定,就会返回挂载失败的错误。如果一切顺利,挂载完成后层级就被激活并与相应子系统关联起来,可以开始使用了。

目前无法将一个新的子系统绑定到激活的层级上,或者从一个激活的层级中解除某个子系统的绑定。

当一个顶层的 cgroup 文件系统被卸载(umount)时,如果其中创建过深层次的后代 cgroup 目录,那么就算上层的 cgroup 被卸载了,层级也是激活状态,其后代 cgroup 中的配置依旧有效。只有递归式地卸载层级中的所有 cgroup,那个层级才会被真正删除。在创建的层级中创建文件夹,就类似于 fork 了一个后代 cgroup,后代 cgroup 中默认继承原有 cgroup 中的配置属性,但是可以根据需求对配置参数进行调整。这样就把一个大的 cgroup 系统分割成一个个嵌套的、可动态变化的 “软分区”。

4./sys/fs/cgroup/cpu/docker/[container-ID] 下文件的作用

前面已经说过,以资源开头(比如 cpu.shares)的文件都是用来限制这个 cgroup 下任务的可用的配置文件。一个 cgroup 创建完成,不管绑定了何种子系统,其目录下都会生成以下几个文件,用来描述 cgroup 的相应信息。同样,把相应信息写入这些配置文件就可以生效,内容如下。

  • tasks:这个文件中罗列了所有在该 cgroup 中任务的 TID,即所有进程或线程的 ID。该文件并不保证任务的 TID 有序,把一个任务的 TID 写到这个文件中就意味着把这个任务加入这个 cgroup 中,如果这个任务所在的任务组与其不在同一个 cgroup,那么会在 cgroup.procs 文件里记录一个该任务所在任务组的 TGID 值,但是该任务组的其他任务并不受影响。
  • cgroup.procs:这个文件罗列所有在该 cgroup 中的 TGID(线程组 ID),即线程组中第一个进程的 PID。该文件并不保证 TGID 有序和无重复。写一个 TGID 到这个文件就意味着把与其相关的线程都加到这个 cgroup 中。
  • notify_on_release:填 0 0 0 1 1 1,表示是否在 cgroup 中最后一个任务退出时通知运行 release agent,默认情况下是 0 0 0,表示不运行。
  • release_agent:指定 release agent 执行脚本的文件路径(该文件在最顶层 cgroup 目录中存在),这个脚本通常用于自动化卸载无用的 cgroup。

本系列由浅入深地讲解了 cgroups,从 cgroups 是什么,到 cgroups 该怎么用,最后对大量的 cgroup 子系统配置参数进行了梳理。可以看到,内核对 cgroups 的支持已经较多,但是依旧有许多工作需要完善。如网络方面目前通过 TC(Traffic Controller)来控制,未来需要统一整合;优先级调度方面依旧有很大的改进空间。

这篇关于【Docker 内核详解】cgroups 资源限制(三):实现方式及工作原理简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/303154

相关文章

windos server2022里的DFS配置的实现

《windosserver2022里的DFS配置的实现》DFS是WindowsServer操作系统提供的一种功能,用于在多台服务器上集中管理共享文件夹和文件的分布式存储解决方案,本文就来介绍一下wi... 目录什么是DFS?优势:应用场景:DFS配置步骤什么是DFS?DFS指的是分布式文件系统(Distr

NFS实现多服务器文件的共享的方法步骤

《NFS实现多服务器文件的共享的方法步骤》NFS允许网络中的计算机之间共享资源,客户端可以透明地读写远端NFS服务器上的文件,本文就来介绍一下NFS实现多服务器文件的共享的方法步骤,感兴趣的可以了解一... 目录一、简介二、部署1、准备1、服务端和客户端:安装nfs-utils2、服务端:创建共享目录3、服

JAVA系统中Spring Boot应用程序的配置文件application.yml使用详解

《JAVA系统中SpringBoot应用程序的配置文件application.yml使用详解》:本文主要介绍JAVA系统中SpringBoot应用程序的配置文件application.yml的... 目录文件路径文件内容解释1. Server 配置2. Spring 配置3. Logging 配置4. Ma

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

C#使用yield关键字实现提升迭代性能与效率

《C#使用yield关键字实现提升迭代性能与效率》yield关键字在C#中简化了数据迭代的方式,实现了按需生成数据,自动维护迭代状态,本文主要来聊聊如何使用yield关键字实现提升迭代性能与效率,感兴... 目录前言传统迭代和yield迭代方式对比yield延迟加载按需获取数据yield break显式示迭

Python实现高效地读写大型文件

《Python实现高效地读写大型文件》Python如何读写的是大型文件,有没有什么方法来提高效率呢,这篇文章就来和大家聊聊如何在Python中高效地读写大型文件,需要的可以了解下... 目录一、逐行读取大型文件二、分块读取大型文件三、使用 mmap 模块进行内存映射文件操作(适用于大文件)四、使用 pand

python实现pdf转word和excel的示例代码

《python实现pdf转word和excel的示例代码》本文主要介绍了python实现pdf转word和excel的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一、引言二、python编程1,PDF转Word2,PDF转Excel三、前端页面效果展示总结一

Python xmltodict实现简化XML数据处理

《Pythonxmltodict实现简化XML数据处理》Python社区为提供了xmltodict库,它专为简化XML与Python数据结构的转换而设计,本文主要来为大家介绍一下如何使用xmltod... 目录一、引言二、XMLtodict介绍设计理念适用场景三、功能参数与属性1、parse函数2、unpa

mac中资源库在哪? macOS资源库文件夹详解

《mac中资源库在哪?macOS资源库文件夹详解》经常使用Mac电脑的用户会发现,找不到Mac电脑的资源库,我们怎么打开资源库并使用呢?下面我们就来看看macOS资源库文件夹详解... 在 MACOS 系统中,「资源库」文件夹是用来存放操作系统和 App 设置的核心位置。虽然平时我们很少直接跟它打交道,但了

Mybatis官方生成器的使用方式

《Mybatis官方生成器的使用方式》本文详细介绍了MyBatisGenerator(MBG)的使用方法,通过实际代码示例展示了如何配置Maven插件来自动化生成MyBatis项目所需的实体类、Map... 目录1. MyBATis Generator 简介2. MyBatis Generator 的功能3