Linux内存管理(七十二):Linux PSI 原理更新(v5.15)

2024-05-29 21:04

本文主要是介绍Linux内存管理(七十二):Linux PSI 原理更新(v5.15),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

源码基于:Linux 5.15

约定:

  • 芯片架构:ARM64
  • 内存架构:UMA
  • CONFIG_ARM64_VA_BITS:39
  • CONFIG_ARM64_PAGE_SHIFT:12
  • CONFIG_PGTABLE_LEVELS :3

0. 前言

本文是在之前《PSI 详解 v5.4》一文基础上,整理一下PSI 原理中的细节,包含 cgroup v2 关于PSI 的原理和使用。

参考:

PSI 详解 v5.4

PSI 指标

PSI 功能依赖 CONFIG_PSI,当该 config 没有使能,psi.c 是不会被编译到 image的。

1. PSI 中涉及的重要属性

本节主要梳理 PSI 中一些重要的变量、属性值,笔者习惯把重要的属性总结到最前文,阅读PSI 原理可以暂跳过此节。

1.1 psi_enable

kernel/sched/psi.c#ifdef CONFIG_PSI_DEFAULT_DISABLED
static bool psi_enable;
#else
static bool psi_enable = true;
#endif

静态全局变量 psi_enable 受限于 CONFIG_PSI_DEFAULT_DISABLED,默认该 config 不会使能,即 psi_enable 为 true。

另外,可以通过 cmdline 中属性 "psi=" 修改该值:

kernel/sched/psi.cstatic int __init setup_psi(char *str)
{return kstrtobool(str, &psi_enable) == 0;
}
__setup("psi=", setup_psi);

当 psi_enable 为false 时,PSI 全局控制变量 psi_disabled (static key) 会被置成 true:

kernel/sched/psi.cvoid __init psi_init(void)
{if (!psi_enable) {static_branch_enable(&psi_disabled);return;}...
}

1.2 psi_period

kernel/sched/psi.c/* Sampling frequency in nanoseconds */
static u64 psi_period __read_mostly;

1.3 psi_cgroups_enabled

kernel/sched/psi.cDEFINE_STATIC_KEY_TRUE(psi_cgroups_enabled);

该变量主要确认 cgroup 中是否启动了 PSI 功能,默认值为 true。

cgroup 模块通过在 cmdline 中设定 "cgroup_disable=" 属性来禁用功能,例如:

  • 设定 "cgroup_disable=cpuset" 来禁用 cpuset;
  • 设定 "cgroup_disable=pressure" 来禁用 PSI;

在 PSI 初始化 psi_init() 函数调用时,会确定 cgroup 模块是否禁用了 pressure,如果 cgroup 中禁用了 PSI,则 psi_cgroups_enabled 的值会被置为 false。

另外,与 Linux6.6 不同之处是,该变量在 Linux6.6 中定义时加上了 static:

static DEFINE_STATIC_KEY_TRUE(psi_cgroups_enabled);

1.4 psi_system 

正常情况下,PSI 中通过 struct psi_group 结构体管理 PSI 中所有状态、数据、work 等信息。

psi_system 是 struct psi_group 结构体变量,用以管理系统 PSI 状态、数据、work 等信息。

kernel/sched/psi.cstatic DEFINE_PER_CPU(struct psi_group_cpu, system_group_pcpu);
struct psi_group psi_system = {.pcpu = &system_group_pcpu,
};

但,在 cgroup 中也可以实现PSI 局部管理,通过对 cpu.pressurememory.pressureio.pressure 等文件 write 操作注册 psi_trigger,实现对特定 cgroup 的资源瓶颈状态的监听和跟踪。

1.4 struct psi_group

include/linux/psi_types.hstruct psi_group {//avgs_work 数据同步锁struct mutex avgs_lock;/* Per-cpu task state & time tracking */struct psi_group_cpu __percpu *pcpu;/* Running pressure averages */u64 avg_total[NR_PSI_STATES - 1];//avgs_work的时间点u64 avg_last_update;u64 avg_next_update;//带有定时器的avgs_workstruct delayed_work avgs_work;/* Total stall times and sampled pressure averages */u64 total[NR_PSI_AGGREGATORS][NR_PSI_STATES - 1];unsigned long avg[NR_PSI_STATES - 1][3];//psimon 线程struct task_struct __rcu *poll_task;struct timer_list poll_timer;wait_queue_head_t poll_wait;atomic_t poll_wakeup;/* Protects data used by the monitor */struct mutex trigger_lock;//所有psi_trigger都存在链表中struct list_head triggers;//每个psi_states类型的psi_trigger 数量u32 nr_triggers[NR_PSI_STATES - 1];//统计poll_work 需要处理哪些psi_states类型的 triggeru32 poll_states;//记录poll_work 最小的周期u64 poll_min_period;/* Total stall times at the start of monitor activation */u64 polling_total[NR_PSI_STATES - 1];u64 polling_next_update;u64 polling_until;
};

2. PSI module 初始化

在module init 时调用 psi_proc_init() 进行 PSI 的初始化,创建了proc 虚拟文件目录 pressure,并在其下面创建了三个子文件:pressure/io、pressure/memory、pressure/cpu

与 Linux5.4 版本不同之处是,这些节点的创建是在  psi_enable 为true 条件下:

kernel/sched/psi.cstatic int __init psi_proc_init(void)
{if (psi_enable) {proc_mkdir("pressure", NULL);proc_create("pressure/io", 0, NULL, &psi_io_proc_ops);proc_create("pressure/memory", 0, NULL, &psi_memory_proc_ops);proc_create("pressure/cpu", 0, NULL, &psi_cpu_proc_ops);}return 0;
}
module_init(psi_proc_init);

更多关于 psi_enable  变量信息可以查看上文第 1.1 节。 

3. PSI 初始化 psi_init()

start_kernel()---->sched_init()---->psi_init()

与 Linux5.4 不同之处是,这里开始多了 cgroup 的控制,主要是通过控制变量 psi_cgroups_enabled (static key),默认为true。

void __init psi_init(void)
{if (!psi_enable) {static_branch_enable(&psi_disabled);return;}if (!cgroup_psi_enabled())static_branch_disable(&psi_cgroups_enabled);psi_period = jiffies_to_nsecs(PSI_FREQ);group_init(&psi_system);
}

与 Linux6.6 不同之处是,当 psi_enable 为false 时,也会将 psi_cgroups_enabled 置为 false。

更多关于 psi_cgroups_enabledpsi_periodpsi_system 可以查看上文第 1.2 节。

3.1 group_init()

kernel/sched/psi.cstatic void group_init(struct psi_group *group)
{int cpu;for_each_possible_cpu(cpu)seqcount_init(&per_cpu_ptr(group->pcpu, cpu)->seq);//初始化avgs_work 的两个时间点group->avg_last_update = sched_clock();group->avg_next_update = group->avg_last_update + psi_period;//初始化带定时器的work,并指定处理函数为psi_avgs_work()INIT_DELAYED_WORK(&group->avgs_work, psi_avgs_work);//初始化avgs_work 数据同步的 avgs_lockkmutex_init(&group->avgs_lock);/* Init trigger-related members */atomic_set(&group->poll_wakeup, 0);mutex_init(&group->trigger_lock);//初始化psi_trigger listINIT_LIST_HEAD(&group->triggers);//初始化每个psi_states类型的psi_trigger 数量memset(group->nr_triggers, 0, sizeof(group->nr_triggers));//初始化poll_work 需要处理哪些psi_states类型的 triggergroup->poll_states = 0;//初始化poll_work 的时间间隔,对于psi_system 这个group只记录最小值group->poll_min_period = U32_MAX;memset(group->polling_total, 0, sizeof(group->polling_total));//初始化下一次poll_work触发的时间group->polling_next_update = ULLONG_MAX;group->polling_until = 0;//初始化poll_work的等待队列init_waitqueue_head(&group->poll_wait);timer_setup(&group->poll_timer, poll_timer_fn, 0);rcu_assign_pointer(group->poll_task, NULL);
}

4. psi_trigger_create()

该函数用以创建 psi_trigger,系统中两个地方会触发:

  • 写 /proc/pressure/* 文件
  • 写 /sys/fs/cgroup/*.pressure 文件

创建好的 psi_trigger 都会被存在对应的 psi_group 中,或是系统的 psi_system,或是 cgroup 中的psi_group。

另外,在第一次创建 psi_trigger 的时候会创建 task "psimon"与 Linux5.4 不同之处是,这里用 kthread_create() 直接创建 task_struct,而不再是 kthread_worker。

kernel/sched/psi.cstruct psi_trigger *psi_trigger_create(struct psi_group *group,char *buf, size_t nbytes, enum psi_res res)
{struct psi_trigger *t;enum psi_states state;u32 threshold_us;u32 window_us;if (static_branch_likely(&psi_disabled))   //psi 是否enablereturn ERR_PTR(-EOPNOTSUPP);if (sscanf(buf, "some %u %u", &threshold_us, &window_us) == 2)  //解析是否为写 some 数据state = PSI_IO_SOME + res * 2;else if (sscanf(buf, "full %u %u", &threshold_us, &window_us) == 2) //解析是否为写 full 数据state = PSI_IO_FULL + res * 2;elsereturn ERR_PTR(-EINVAL);   //其他数据都认为无效if (state >= PSI_NONIDLE)   //pis_states 不能超过PSI_NONIDLEreturn ERR_PTR(-EINVAL);if (window_us < WINDOW_MIN_US ||  //窗口时长设置在500ms 至 10swindow_us > WINDOW_MAX_US)return ERR_PTR(-EINVAL);/* Check threshold */if (threshold_us == 0 || threshold_us > window_us)  //检测阈值不能为0,也不能大于窗口时长return ERR_PTR(-EINVAL);t = kmalloc(sizeof(*t), GFP_KERNEL);  //创建一个psi_triggerif (!t)return ERR_PTR(-ENOMEM);t->group = group;   //记录psi_trigger的 groupt->state = state;   //记录psi_trigger的 psi_statest->threshold = threshold_us * NSEC_PER_USEC;  //记录psi_trigger的检测时间,us 单位t->win.size = window_us * NSEC_PER_USEC;      //记录psi_trigger的窗口时长,us 单位window_reset(&t->win, 0, 0, 0);t->event = 0;t->last_event_time = 0;init_waitqueue_head(&t->event_wait);mutex_lock(&group->trigger_lock);if (!rcu_access_pointer(group->poll_kworker)) { //psi 系统相当关键的地方,创建psimon 工作线程struct task_struct *task;task = kthread_create(psi_poll_worker, group, "psimon");if (IS_ERR(task)) {kfree(t);mutex_unlock(&group->trigger_lock);return ERR_CAST(task);}atomic_clear_bit(POLL_WAKEUP, &group->poll_wakeup);wake_up_process(task);rcu_assign_pointer(group->poll_task, task); //存放task到poll_task中}list_add(&t->node, &group->triggers);  //将新建的psi_trigger 存入group 中group->poll_min_period = min(group->poll_min_period,div_u64(t->win.size, UPDATES_PER_WINDOW)); //确认最新的poll 周期group->nr_triggers[t->state]++;    //计数当前psi 资源psi_trigger数量group->poll_states |= (1 << t->state);  //更新group 中资源状态mutex_unlock(&group->trigger_lock);return t;
}

 

4.1 psi_poll_worker()

该函数是 psimon 线程的执行函数,在 group->poll_wakup 被置为 POLL_WAKUP 或 线程停止时被唤醒,如果是 POLL_WAKEUP 唤醒则调用核心处理函数 psi_poll_work()

kernel/sched/psi.cstatic int psi_poll_worker(void *data)
{struct psi_group *group = (struct psi_group *)data;//设置psimon 的优先级sched_set_fifo_low(current);//等待唤醒,并执行psi_poll_work()while (true) {wait_event_interruptible(group->poll_wait,atomic_fetch_and_clear_bit(POLL_WAKEUP, &group->poll_wakeup) ||kthread_should_stop());if (kthread_should_stop())break;//psi poll 的核心处理函数psi_poll_work(group);}return 0;
}

这篇关于Linux内存管理(七十二):Linux PSI 原理更新(v5.15)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1014637

相关文章

NameNode内存生产配置

Hadoop2.x 系列,配置 NameNode 内存 NameNode 内存默认 2000m ,如果服务器内存 4G , NameNode 内存可以配置 3g 。在 hadoop-env.sh 文件中配置如下。 HADOOP_NAMENODE_OPTS=-Xmx3072m Hadoop3.x 系列,配置 Nam

linux-基础知识3

打包和压缩 zip 安装zip软件包 yum -y install zip unzip 压缩打包命令: zip -q -r -d -u 压缩包文件名 目录和文件名列表 -q:不显示命令执行过程-r:递归处理,打包各级子目录和文件-u:把文件增加/替换到压缩包中-d:从压缩包中删除指定的文件 解压:unzip 压缩包名 打包文件 把压缩包从服务器下载到本地 把压缩包上传到服务器(zip

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

poj3468(线段树成段更新模板题)

题意:包括两个操作:1、将[a.b]上的数字加上v;2、查询区间[a,b]上的和 下面的介绍是下解题思路: 首先介绍  lazy-tag思想:用一个变量记录每一个线段树节点的变化值,当这部分线段的一致性被破坏我们就将这个变化值传递给子区间,大大增加了线段树的效率。 比如现在需要对[a,b]区间值进行加c操作,那么就从根节点[1,n]开始调用update函数进行操作,如果刚好执行到一个子节点,

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in

hdu1689(线段树成段更新)

两种操作:1、set区间[a,b]上数字为v;2、查询[ 1 , n ]上的sum 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#include<queue>#include<set>#include<map>#include<stdio.h>#include<stdl

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor