Kubernetes Kubelet 的 Cgroups 资源限制机制分析

2024-04-21 09:36

本文主要是介绍Kubernetes Kubelet 的 Cgroups 资源限制机制分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

容器技术的两大技术基石,想必大家都有所了解,即 namespace 和 cgroups。但你知道 cgroups 是如何在 kubernetes 中发挥作用的吗?kubelet 都设置了哪些 cgroups 参数来实现对容器的资源限制的呢?本文就来扒一扒 Kubernetes kubelet 的 cgroups 资源限制机制。

层级化的资源限制方式

kubelet 基于 cgroups 的树形结构,采用层级式的方式管理容器的资源限制,如下图所示:
在这里插入图片描述

Node Level Cgroups

Node 层级的资源限制主要是为了避免容器过度占用系统资源,导致节点资源耗尽,影响系统级(如 systemd)和 Kubernetes 依赖组件(如 kubelet 和 containerd)的正常运行,可以通过预留系统资源的方式,确保容器使用的资源总量在控制的范围内。

system-reserved
  • 默认行为:System Reserved Cgroups 默认不配置,需要通过参数显式启用
  • 执行时机:每次 kubelet 启动时执行检查和设置

下表描述了 system-reserved 可能设置的 cgroups 限制:

在这里插入图片描述
上述表格中的资源限制数值均由参数 --system-reserved 控制,不再赘述。

kube-reserved
  • 默认行为:Kube Reserved Cgroups 默认不配置,需要通过参数显式启用
  • 执行时机:每次 kubelet 启动时执行检查和设置

下表描述了 kube-reserved 可能设置的 cgroups 限制:

在这里插入图片描述
上述表格中的资源限制数值均由参数 --kube-reserved 控制,不再赘述。

kubepods
  • 默认行为:kubepods 默认启用配置,且无论如何都会刷新
    这是因为作为 Pods 顶级 cgroups 限制,操作系统默认设置的 cpu.shares=1024cpu.weight=100 过小,很可能出现 CPU 限流,使容器性能变差,因此需要显式刷新。
  • 执行时机:每次 kubelet 启动时执行检查和设置(部分参数同时会被 QoS Manager 周期性和触发式刷新)

在这里插入图片描述

上述表格中的资源限制数值计算规则如下:

--enforce-node-allocatable 包含 pods--cgroups-per-qos=true 时(默认行为):

  • Memory Limit = [Node Capacity] - [Kube Reserved] - [System Reserved]
  • CPU Shares = [Node Capacity] - [Kube Reserved] - [System Reserved]
  • Pid Limit = [Node Capacity] - [Kube Reserved] - [System Reserved]
  • HugePages Limit = [Node Capacity] - [Kube Reserved] - [System Reserved]

否则

  • Memory Limit = [Node Capacity]
  • CPU Shares = [Node Capacity]
  • Pid Limit = [Node Capacity]
  • HugePages Limit = [Node Capacity]

当启用 cgroups v2 而且开启了 MemoryQoS 门控(默认不启用) 时,设置

  • Memory Min = [Guaranteed Memory Request] + [Burstable Memory Request],这个参数由 QOS Manager 独立协程执行,不仅每分钟刷新一次,而且在同步 Pod 变化时也会被显式调用执行。

HugePages Limit 启动时被设置一次,随后也会被 QOS Manager 独立协程执行刷新,不仅每分钟刷新一次,而且在同步 Pod 变化时也会被显式刷新。

QOS Level Cgroups

QOS 层级的资源限制主要是为了区分三类 Pod 的服务等级,确保 guaranteed Pod 的资源不被 burstable 和 besteffort 类型的 Pod 争抢,确保 burstable Pod 的 Request 最低资源占用不被 besteffort 类型的 Pod 争抢,从而确保服务质量遵循 guaranteed > burstable > besteffort 的规则。

guaranteed

guaranteed 类型的 Pod 由于 Request 严格等于 Limit,因此该类型的 Pod 不需要再为其创建一层父级 cgroups 进行资源限制,故这一层在 Kubernetes 系统中实际上是不存在的。或者,你可以认为 kubepods 就等同于 guaranteed cgroups。guaranteed 类型的 Pod 直接挂载在 kubepods cgroups 目录下。

burstable
  • 默认行为:默认启用,可以通过设置 --cgroups-per-qos=false 禁用
  • 执行时机:QOS Manager 独立协程执行刷新,不仅每分钟刷新一次,而且在同步 Pod 变化时也会被显式刷新

在这里插入图片描述

  • CPU Shares = [burstable 类型 Pods 的 CPU Request 总和]
  • HugePages Limit = 最大值(1 << 62 = 4611686018427387904),即不限制

Memory 的设置依赖几个开关,其中:

  • 当启用 cgroups v2 而且开启了 MemoryQoS 门控(默认不启用) 时,设置 Memory Min = [Burstable Memory Request],以保留内存资源
  • 当启用了 QOSReserved 门控(默认不启用) 时,设置 [Memory Limit] = [Node Available] - [Guaranteed Memory Request]*[百分比]

这里,[Node Available] 指的是节点资源总量减去系统保留资源后可供 Pod 使用的资源总量,[百分比] 来控制 burstable 类型的 Pod 是否可以争抢 Guaranteed 类型 Pod 的 Request 占用内存,100% 表示完全禁止争抢,0% 则表示完全放开,自由竞争。

默认情况下,这些开关处于关闭状态,内存是处于自由竞争的状态。

besteffort
  • 默认行为:默认启用,可以通过设置 --cgroups-per-qos=false 禁用
  • 执行时机:QOS Manager 独立协程执行刷新,不仅每分钟刷新一次,而且在同步 Pod 变化时也会被显式刷新

在这里插入图片描述

  • CPU Shares = 最小值(cgroups v1 value 为 2;cgroups v2 value 为 1)
  • HugePages Limit = 最大值(1 << 62 = 4611686018427387904),即不限制

Memory 的设置依赖开关设置:

  • 当启用了 QOSReserved 门控(默认不启用) 时,设置 [Memory Limit] = [Burstable Memory Limit] - [Burstable Memory Request]*[百分比]
    其中 [Burstable Memory Limit] = [Node Available] - [Guaranteed Memory Request]*[百分比]
    即 besteffort 可用内存是节点 Pods 可用内存减去为 Guaranteed 和 Burstable Request 保留内存后,剩余的内存资源

默认情况下,QOSReserved 处于关闭状态,内存处于自由竞争的状态。

注意 besteffort 类型的 Pod 顶层限制 cpu.shares 权重为最小值 2,更容易出现 CPU 限流

Pod Level Cgroups

Pod 层级的资源限制主要是为了限制 Pod 内包含的所有 Container 资源占用不超过设置的资源上限。提供 Pod 层资源限制的主要优点是能够屏蔽底层容器运行时,即便底层 Container Runtime 没能为 Container 正确设置 cgroups 资源限制,kubelet 也能在 Container 的父级 cgroups 把资源使用限制住,防止单个 Pod 异常影响整个节点的稳定性。

Pod level cgroups 是 kubelet 能够直接设置的最底一层 cgroups。
对于 Container 的 cgroups,kubelet 仅仅只是准备 cgroups 配置参数,通过 CRI 传递给 Container Runtime 真正去执行配置。

  • 默认行为:默认启用,可以通过设置 --cgroups-per-qos=false 禁用
  • 执行时机:kubelet 收到 Pod 事件,SyncPod 时设置
    在这里插入图片描述

由于 Pod 的 QoS 类型不同,不同的资源限制有可能被设置,也可能未被设置,这些参数主要是通过 Pod 容器的 Request 和 Limit 配置决定是否配置对应的 cgroups 参数的。

  • [Memory Limit] = [ Pod 容器的 Memory Limit 总和 ],当所有容器都配置 Limit 时生效
  • [Memory Min] = [ Pod 容器的 Memory Request 总和 ],至少有一个容器配置了 Memory Request,同时 MemoryQoS 被开启
  • [CPU Shares] = [ Pod 容器的 CPU Request 总和 ],如果计算结果低于最小值,则配置为最低 CPU Shares(等同于 besteffort 类型 Pod 的 CPU 权重)
  • [CPU Limit] = [ Pod 容器的 CPU Limit 总和 ],当所有容器都配置 Limit 时生效,同时 --cpu-cfs-quota 开启,默认开启
  • [Pid Limit] = [kubelet 启动参数设置的限制值],当 --pod-max-pids > 0 时生效,默认 -1 不限制
  • [HugePages Limit] = [ Pod 容器的 HugePages Request 总和 ],至少有一个容器配置了 HugePages Request,HugePages 资源的 Request 必须等于 Limit

Container Level Cgroups

Container 层级的资源限制由 Container Runtime(如 Containerd + Runc)实施,kubelet 通过 CRI 接口将需要设置的 cgroups 资源限制传递给底层 Runtime 去执行,实现对每个 Container 的资源限制。

  • 默认行为:默认启用
  • 执行时机:kubelet 收到 Pod 事件,SyncPod 时设置

在这里插入图片描述

  • [Memory Limit] = [ Container 容器的 Memory Limit ]
  • [Memory Min] = [ Container 容器的 Memory Request ],依赖 MemoryQoS 门控
  • memory.high=floor[(requests.memory + memory throttling factor * (limits.memory or node allocatable memory - requests.memory))/pageSize] * pageSize,其中 memory throttling factor 默认值为 0.9,即内存达到 Limit 的 90% 时,开始限流内存使用,依赖 MemoryQoS 门控
  • memory.swap.max=containerMemoryRequest/nodeTotalMemory*totalPodsSwapAvailable,仅适用于 cgroups v2,依赖 NodeSwap 门控和 Swap Behavior 配置,默认禁用 (cgroups v1 不支持 swap 限制,只禁用 swap)
  • cpuset.mems=[ 内存分配绑定的 NUMA 节点 ],依赖 Memory Manager 工作且设置为 Static Policy 模式,仅对 Guaranteed 类型 Pod 生效,默认不启用
  • [CPU Shares] = [ Container 容器的 CPU Request ],如果计算结果低于最小值,则配置为最低 CPU Shares(等同于 besteffort 类型 Pod 的 CPU 权重)
  • [CPU Limit] = [ Container 容器的 CPU Limit ]
  • cpuset.cpus=[ CPU 分配绑定的 NUMA 节点 ],依赖 CPU Manager 工作且设置为 Static Policy 模式,仅对 Guaranteed 类型 Pod 生效,默认不启用
  • [HugePages Limit] = [ Container 容器的 HugePages Request ],HugePages 资源的 Request 必须等于 Limit

CPU 转换公式

容器的 CPU 资源配置由数字表示:

整数 1 代表 1 core,1 core = 1000m

Linux 系统,默认 1 core 的 cpu.shares 对应值为 1024,由此可以推演出如下公式:

1 core = 1000m => cpu.shares=1024
cpu.shares = [cpu request 的 小 m 表示法]*1024/1000

例如,当 cpu request 为 100m 时,对应的 cpu.shares=100*1024/1000=102(取整数)

对于 cpu limit:

cpu.cfs_quota_us = [cpu limit 的 小 m 表示法]*cpu.cfs_period_us/1000,其中 cpu.cfs_period_us 为固定值,默认为 100ms,即 100000us

从 cgroups v1 的 cpu.shares 转换为 cgroups v2 的 cpu.weight 公式为:

cpu.weight = 1 + ((cpu.shares-2)*9999)/262142
该公式由 cgroups v1 中 cpu.shares 的有效范围 [2-262144] 到 cgroups v2 中 cpu.weight 的有效范围 [1-10000] 的数学映射转换关系推导而来

引用参考

  • http://arthurchiao.art/blog/k8s-cgroup-zh

这篇关于Kubernetes Kubelet 的 Cgroups 资源限制机制分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/922749

相关文章

JVM 的类初始化机制

前言 当你在 Java 程序中new对象时,有没有考虑过 JVM 是如何把静态的字节码(byte code)转化为运行时对象的呢,这个问题看似简单,但清楚的同学相信也不会太多,这篇文章首先介绍 JVM 类初始化的机制,然后给出几个易出错的实例来分析,帮助大家更好理解这个知识点。 JVM 将字节码转化为运行时对象分为三个阶段,分别是:loading 、Linking、initialization

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

Kubernetes PodSecurityPolicy:PSP能实现的5种主要安全策略

Kubernetes PodSecurityPolicy:PSP能实现的5种主要安全策略 1. 特权模式限制2. 宿主机资源隔离3. 用户和组管理4. 权限提升控制5. SELinux配置 💖The Begin💖点点关注,收藏不迷路💖 Kubernetes的PodSecurityPolicy(PSP)是一个关键的安全特性,它在Pod创建之前实施安全策略,确保P

Java ArrayList扩容机制 (源码解读)

结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL

poj 2135 有流量限制的最小费用最大流

题意: 农场里有n块地,其中约翰的家在1号地,二n号地有个很大的仓库。 农场有M条道路(双向),道路i连接着ai号地和bi号地,长度为ci。 约翰希望按照从家里出发,经过若干块地后到达仓库,然后再返回家中的顺序带朋友参观。 如果要求往返不能经过同一条路两次,求参观路线总长度的最小值。 解析: 如果只考虑去或者回的情况,问题只不过是无向图中两点之间的最短路问题。 但是现在要去要回

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57

poj 3422 有流量限制的最小费用流 反用求最大 + 拆点

题意: 给一个n*n(50 * 50) 的数字迷宫,从左上点开始走,走到右下点。 每次只能往右移一格,或者往下移一格。 每个格子,第一次到达时可以获得格子对应的数字作为奖励,再次到达则没有奖励。 问走k次这个迷宫,最大能获得多少奖励。 解析: 拆点,拿样例来说明: 3 2 1 2 3 0 2 1 1 4 2 3*3的数字迷宫,走两次最大能获得多少奖励。 将每个点拆成两个

poj 2195 bfs+有流量限制的最小费用流

题意: 给一张n * m(100 * 100)的图,图中” . " 代表空地, “ M ” 代表人, “ H ” 代表家。 现在,要你安排每个人从他所在的地方移动到家里,每移动一格的消耗是1,求最小的消耗。 人可以移动到家的那一格但是不进去。 解析: 先用bfs搞出每个M与每个H的距离。 然后就是网络流的建图过程了,先抽象出源点s和汇点t。 令源点与每个人相连,容量为1,费用为

poj 3068 有流量限制的最小费用网络流

题意: m条有向边连接了n个仓库,每条边都有一定费用。 将两种危险品从0运到n-1,除了起点和终点外,危险品不能放在一起,也不能走相同的路径。 求最小的费用是多少。 解析: 抽象出一个源点s一个汇点t,源点与0相连,费用为0,容量为2。 汇点与n - 1相连,费用为0,容量为2。 每条边之间也相连,费用为每条边的费用,容量为1。 建图完毕之后,求一条流量为2的最小费用流就行了