LWN:修复asymmetric CPU packing 中的小问题!

2023-10-14 12:59

本文主要是介绍LWN:修复asymmetric CPU packing 中的小问题!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关注了就能看到更多这么棒的文章哦~

Fixing a corner case in asymmetric CPU packing

January 7, 2022
This article was contributed by Marta Rybczyńska
DeepL assisted translation
https://lwn.net/Articles/880367/

Linux 支持系统中的 CPU 具有不同的处理能力的体系架构。例如,Arm big.LITTLE 系统就将高性能且更耗电的 CPU 与比较慢但是功耗效率更好的 CPU 结合了起来。Linux 多年来也一直支持同步多线程架构(SMT,Simultaneous multithredaing),其中每一个 CPU 都会执行多个独立的运行线程 thread,这样看起来就好像是有多个 CPU core 一样。一些架构中混合了这两种方法。最近 Ricardo Neri 提交的 patch set 所引发的讨论就表明,在这些系统上 scheduler 可能在以很低效的方式来分配任务。

Simultaneous multithreading

SMT 功能多年来在 PowerPC 和 x86 等架构中一直存在。SMT 系统中的 CPU 可以从两个(或多个)独立的执行上下文中获取并运行指令。每个逻辑线程(logical thread)看起来都像是一个独立的 CPU,所以一个物理上真正的 CPU 运行着两个线程,在 Linux 中就会被视为是两个 CPU。按这种方式来使用这种类型的硬件的 SMT 处理器通常被称为 "siblings (兄弟处理器)"。操作系统基本上无法控制 SMT 处理器在这些执行上下文(execution context)之间应该如何分配资源。

SMT 的做法可以更好地利用处理器的资源。因为当某一个执行路径被卡住时(例如在等待内存返回数据),物理 CPU 就可以执行其他线程的指令了。然而,处理器中的线程数量虽然增加了一倍,但是通常并不会使其处理能力也增加一倍。两个线程都在共同分享着相同的资源,因此当系统处于低负载状态时,SMT 模式才是最有效的。因此,两个 SMT 线程的计算能力肯定比两个物理 CPU core 的计算能力要低。

计算能力既然是有下降的,那么这个下降的数值就应该要在 scheduler 中有所反映,但具体应该降低多少,是完全取决于不同工作场景下的负载的,所以内核需要使用一些启发式方法(heuristic)。Linux 对此进行建模的方法就是降低在同一个硬件上运行的第二个(及以下)CPU 线程的 CPU 优先级(优先级是用来调节 CPU 被选中从而运行下一个指定任务的可能性大小的)。

用户可以在 /sys/devices/system/cpu/cpuX/topology/core_cpus_list(其中 X 是系统中的 CPU 编号)中看到这个系统的拓扑信息中的同级 CPU。例如,在一个有 SMT 的 12 核系统中:

$cat /sys/devices/system/cpu/cpu0/topology/core_cpus_list
0,6

这个结果意味着用户可见的 CPU core 0 和 6 是 SMT 方式的 sibling,所以它们使用的是同一个硬件 core。

ASYM_PACKING

Asymmetric packing(调度器中所谓的 SD_ASYM_PACKING 方式)是 2010 年为 PowerPC 架构添加的一个功能。调度器可以利用这个机制来将任务转移到某些 CPU 上从而让其他 CPU 空闲,来获得更好的处理器性能。然后,繁忙的 CPU 就可以进入到较低的 SMT 模式(也就是运行较少的线程),从而让整体系统性能更高。PowerPC 的 SMT 模式文档中包括了一些例子。

ASYM_PACKING 模式已经经历过多次重构了,目前在 x86 和 PowerPC 上都可以支持。针对 x86 的支持也包括可以比其他 core 拥有更高的 CPU 频率,例如使用 Turbo Boost Max Technology (ITMT)3.0 功能的情况下。2016 年的 Linux Plumbers Conference 上的 ppt 更详细地解释了这项工作。

Mixing SMT and ASYM_PACKING

Neri 在一个有着三个不同的 CPU 优先级的系统上观察到了一些不合理的调度决策。这个系统中包含高性能 CPU core(英特尔酷睿)与其 SMT sibling,以及较低性能的 CPU core(英特尔 Atom)。在这种情况下,合理的调度方法(至少是对于某些工作负载下)是应该首先使用高性能 core(但不用相应的 SMT 副线程),然后再使用较低性能的 core,最后再用 SMT secondary core。但是实际上调度器会先把 task 交给高性能 core 及其 SMT sibling 上,让其他 core 空闲。结果就是这些 task 在争夺处理器资源,而那些独立的 CPU 仍然闲置。

为了理解这个问题,可以思考一下 Neri 的一个 patch 中提到的例子。想象一下,某个系统中有两个物理 CPU,具有不同的优先级,分别是 60 和 30。它们都有 SMT sibling core。内核代码中使用了 x86 支持代码中的一个方程式来计算分配 SMT 优先级:

smt_prio = prio * smp_num_siblings / i;

其中 smt_prio 是 effective priority,prio 是 CPU 的 original priority,smp_num_siblings 是每个 CPU 的 sibling 的数量(在 Neri 的例子中是 2),i 是分配给当前所关注的物理 CPU 的 sibling 的数量,从 1 开始。根据该公式,第一个 CPU 的主线程的计算出来的优先级是 120,而其 SMT 兄弟姐妹的计算出来的优先级是 60。对于第二个 CPU,主线程的优先级为 60,sibling 线程的优先级为 30。在这种情况下,SMT sibling 和性能较低的主线程的优先级就相等了。

Neri 想改变调度器的实现,希望在使用 SMT sibling CPU 之前,优先将任务分配给第二个(物理)CPU 的主线程。为此,他提议修改公式,使之除以 sibling 数量的平方:

smt_prio = prio * smp_num_siblings / (i*i);

在此情况下,第一个 CPU 的线程优先级将是 120 和 30;然后是第二个 CPU 的线程的 60 和 15。因此,task 就会被优先安排在两个主线程上。

当涉及到调度器的负载平衡决策时,具体来说在调度器决定将一个任务从一个 CPU 移到另一个 CPU 来进行系统负载平衡时,Neri 的 patch set 做出了另一个改动。在决定是否将一个任务从原 CPU 移动到新的 CPU 时,调度器会考虑目标 CPU 是否有 SMT sibling。如果没有的话,就可以把一个至少有两个繁忙线程的 SMT 原 CPU 的任务交给这个目标 CPU。如果原 CPU 中只有一个 sibling core 在忙,那么仅当目标 CPU 的优先级高于原 CPU 时,task 才会被迁移。

Summary

根据作者提供的基准测试结果,调度性能在某些情况下提高了几个百分点,尽管在大多数情况下提升比较小。基准测试也展示了一些情况下的性能有下降,但是 Neri 没有对这个结果做出解释。

这个改动已经被合并到 5.16 内核中,所以使用新 kernel 的系统的所有者应该可以观察到调度的变化,并希望能有更好的性能。这个改动修正了调度策略中的一个 corner case,很有可能这并不是唯一一个需要处理的 corner case。预期在未来应该能看到更多的关于 asymmetric CPU 的调度策略的调整。

全文完
LWN 文章遵循 CC BY-SA 4.0 许可协议。

欢迎分享、转载及基于现有协议再创作~

长按下面二维码关注,关注 LWN 深度文章以及开源社区的各种新近言论~

5e2dcb54f644155ff9fb27b97f75a411.png

这篇关于LWN:修复asymmetric CPU packing 中的小问题!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/210681

相关文章

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

缓存雪崩问题

缓存雪崩是缓存中大量key失效后当高并发到来时导致大量请求到数据库,瞬间耗尽数据库资源,导致数据库无法使用。 解决方案: 1、使用锁进行控制 2、对同一类型信息的key设置不同的过期时间 3、缓存预热 1. 什么是缓存雪崩 缓存雪崩是指在短时间内,大量缓存数据同时失效,导致所有请求直接涌向数据库,瞬间增加数据库的负载压力,可能导致数据库性能下降甚至崩溃。这种情况往往发生在缓存中大量 k

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)

基于51单片机的自动转向修复系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 单片机

【VUE】跨域问题的概念,以及解决方法。

目录 1.跨域概念 2.解决方法 2.1 配置网络请求代理 2.2 使用@CrossOrigin 注解 2.3 通过配置文件实现跨域 2.4 添加 CorsWebFilter 来解决跨域问题 1.跨域概念 跨域问题是由于浏览器实施了同源策略,该策略要求请求的域名、协议和端口必须与提供资源的服务相同。如果不相同,则需要服务器显式地允许这种跨域请求。一般在springbo

题目1254:N皇后问题

题目1254:N皇后问题 时间限制:1 秒 内存限制:128 兆 特殊判题:否 题目描述: N皇后问题,即在N*N的方格棋盘内放置了N个皇后,使得它们不相互攻击(即任意2个皇后不允许处在同一排,同一列,也不允许处在同一斜线上。因为皇后可以直走,横走和斜走如下图)。 你的任务是,对于给定的N,求出有多少种合法的放置方法。输出N皇后问题所有不同的摆放情况个数。 输入

vscode中文乱码问题,注释,终端,调试乱码一劳永逸版

忘记咋回事突然出现了乱码问题,很多方法都试了,注释乱码解决了,终端又乱码,调试窗口也乱码,最后经过本人不懈努力,终于全部解决了,现在分享给大家我的方法。 乱码的原因是各个地方用的编码格式不统一,所以把他们设成统一的utf8. 1.电脑的编码格式 开始-设置-时间和语言-语言和区域 管理语言设置-更改系统区域设置-勾选Bata版:使用utf8-确定-然后按指示重启 2.vscode

Android Environment 获取的路径问题

1. 以获取 /System 路径为例 /*** Return root of the "system" partition holding the core Android OS.* Always present and mounted read-only.*/public static @NonNull File getRootDirectory() {return DIR_ANDR