乱序和屏障2 : UP单核需要处理的CPU乱序问题

2023-10-21 10:50

本文主要是介绍乱序和屏障2 : UP单核需要处理的CPU乱序问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 前言
    • 弱内存顺序模型
    • 屏障指令的封装
        • rmb/wmb/mb
        • armv7
        • ARMv8
        • RV32&RV64
    • mb/rmb/wmb 的应用
        • 执行流分析
        • 情景1 单用户流
        • 情景2 用户流与异常流

前言

UP : (Uni-Processor)编译器乱序 对应的 编译器 内存屏障 问题 已经在 https://blog.csdn.net/u011011827/article/details/124563277
中提及, 并 做了实验接着 我们 讨论一下 单核需要处理的CPU乱序问题
这个和架构相关
我们主要考察 arm32/arm64/rv32/rv64
他们都是弱内存顺序模型 , 我们先就 弱内存顺序模型考察一番

弱内存顺序模型

对 load & store 的执行顺序没有要求, 只要不将依赖相关的指令乱序,则可以任意乱序
例如 如下,只要没有依赖,都可以乱序(但不一定100%乱序) // 格式为 before-store
load-load
store-store
load-store
store-load

屏障指令的封装

rmb/wmb/mb
读内存屏障本线程所有后续的读操作均在本条指令以后执行
写内存屏障本线程所有之前的写操作均在本条指令以前执行
读写内存屏障本线程所有之前的读写操作均在本条指令以前执行
armv7

在这里插入图片描述

注意 : ARMv7 没有 LD 选项 . ARMv8 有
以Inner Shareable(ISH)为例使用"SY"可防止 所有的 的reorder (read&write memory barrier)load-loadstore-storeload-storestore-load
使用"ST"防止以下的乱序 (write memory barrier)store-store
#define dsb(opt) __asm__ __volatile__ ("dsb " #opt : : : "memory")
#define mb()            dsb() // 等同于 dsb(sy)
#define rmb()           dsb() // 等同于 dsb(sy)
#define wmb()           dsb(st)
ARMv8

在这里插入图片描述

write-read 即 store-load 没必要 屏障吗?没有必要 // TODO如果有依赖,自然不会乱序如果没有依赖,store什么时候发生以及完成都无所谓
#define dsb(opt) __asm__ __volatile__ ("dsb " #opt : : : "memory")
#define mb()            dsb(sy)
#define rmb()           dsb(ld)
#define wmb()           dsb(st)
RV32&RV64

在这里插入图片描述

#define RISCV_FENCE(p, s) \__asm__ __volatile__ ("fence " #p "," #s : : : "memory")#define mb()            RISCV_FENCE(iorw,iorw)
#define rmb()           RISCV_FENCE(ir,ir)
#define wmb()           RISCV_FENCE(ow,ow)

mb/rmb/wmb 的应用

执行流分析
如果只有一个执行流,应该没啥问题, 因为 有依赖关系的指令 不会乱序如果我改了下一条指令呢?是不是要 刷新一下流水线目前 我的代码里面有两个 执行流一个是正常的用户执行流一个是异常执行流
那么就考虑 mb/rmb/wmb 在 两个执行流中会导致的问题
情景1 单用户流
不加屏障的情况command1 	// 改了 command3 所在的地址 的指令 为 异常产生指令(svc/ecall)command2    // nop 指令command3 	// command3 指令(待修改 为 svc/ecall)
加了屏障的情况command1 	// 改了 command3 所在的地址 的指令 为 异常产生指令(svc/ecall)command2    // mb 指令command3 	// command3 指令(待修改 为 svc/ecall)结果 :不加屏障 : command3 已经被加载到 pipeline , 还是执行 原来的 command3加屏障 : command3 已经被加载到 pipeline , 然后flush pipeline , 执行 svc/ecall
实验代码:https://gitee.com/suweishuai/baremetal/commit/b5bd7565c84bf4ad69e4773719b8d6082df086ef
情景2 用户流与异常流
// 初始化 flag = 0 ;
// 初始化 data = 0 ;
User:while (flag == 0);  	// U1printf("%d\n",data); 	// U2
Execption:data = 0x200;			// E1flag = 1;  				// E2会有两个问题:Q1 :User flow 里面  U2 先于 U1 执行 ? Q2 :Execption flow 里面 E2 先于 E1 执行, E1 还未执行,此时 Execption 切出,然后 U1 U2 执行,打印 了 0Q1 可以测试
Q2 不可测试(因为Execption 不会在那时切出) // 只有 如下情况才可测试UserA:while (flag == 0);  	// UA1printf("%d\n",data); 	// UA2UserB:data = 0x200;			// UB1flag = 1;  				// UB2UserB flow 里面 UB2 先于 UB1 执行, UB1 还未执行,此时 UserB 切出,然后 UA1 UA2 执行,打印 了 0Q1 实际情况 // 在四种架构下都不会有 U2 先于 U1 执行 的情况 , 这里拿aarch64来说U1 反汇编 为 U1.1 U1.2 U1.3U2 反汇编 为 U2.1 U2.2 U2.3 U2.4// 看起来也没有依赖,为什么不会发生乱序呢? // TODO40005e44:   b9402be0    ldr w0, [sp, #40]  					// U1.140005e48:   7100001f    cmp w0, #0x0 						// U1.240005e4c:   54ffffc0    b.eq    40005e44 <new_fun+0x74>     // U1.340005e50:   b94027e1    ldr w1, [sp, #36] // 开始准备调用 printf  	// U2.140005e54:   f0000000    adrp    x0, 40008000 <__func__.0+0x2a8>		// U2.240005e58:   91272000    add x0, x0, #0x9c8  						// U2.340005e5c:   97fff414    bl  40002eac <printf> 						// U2.4

这篇关于乱序和屏障2 : UP单核需要处理的CPU乱序问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/253901

相关文章

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

缓存雪崩问题

缓存雪崩是缓存中大量key失效后当高并发到来时导致大量请求到数据库,瞬间耗尽数据库资源,导致数据库无法使用。 解决方案: 1、使用锁进行控制 2、对同一类型信息的key设置不同的过期时间 3、缓存预热 1. 什么是缓存雪崩 缓存雪崩是指在短时间内,大量缓存数据同时失效,导致所有请求直接涌向数据库,瞬间增加数据库的负载压力,可能导致数据库性能下降甚至崩溃。这种情况往往发生在缓存中大量 k

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)

【VUE】跨域问题的概念,以及解决方法。

目录 1.跨域概念 2.解决方法 2.1 配置网络请求代理 2.2 使用@CrossOrigin 注解 2.3 通过配置文件实现跨域 2.4 添加 CorsWebFilter 来解决跨域问题 1.跨域概念 跨域问题是由于浏览器实施了同源策略,该策略要求请求的域名、协议和端口必须与提供资源的服务相同。如果不相同,则需要服务器显式地允许这种跨域请求。一般在springbo