[处理器芯片]-3 超标量CPU实现之取指

2024-05-26 17:20

本文主要是介绍[处理器芯片]-3 超标量CPU实现之取指,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 超标量CPU结构

前端(Frontend)

前端负责从程序中提取指令,并将其转换为微操作送入CPU的流水线中。

1)取指单元:从指令缓存或内存中提取指令,并将其送入流水线。

2)分支预测单元:负责预测分支指令的执行路径,以提前加载正确的指令,减少分支带来的流水线停顿。

3)译码器:将获取到的指令解码成CPU内部理解的格式,以便后续阶段的执行。

4)寄存器重命名:将逻辑寄存器重命名为物理寄存器,以解决数据依赖关系,避免数据冒险,并提高指令级并行度。

5)分发和发射:将已经译码并重命名的指令发送到相应的执行单元,并在需要时进行缓存或排队。在发射阶段,指令被提交给调度器进行后续处理。

6)调度器:负责根据指令的依赖关系和可用资源,将指令调度到可用的执行单元中,包括确定指令的执行顺序,管理执行单元的利用率,并确保指令的正确执行。调度器还负责管理处理器的资源,包括执行单元、寄存器文件等,它会跟踪资源的使用情况,以确保所有指令都能够得到充分利用,同时避免资源冲突和竞争。

后端(Backend)

后端负责实际执行指令和处理数据。

1)执行单元:包括整数单元、浮点单元、加载/存储单元等,负责执行各种不同类型的指令。

2)寄存器文件:存储CPU中的通用寄存器和状态寄存器,执行单元从寄存器文件中读取操作数并将结果写回。

3)乱序引擎:实现乱序执行功能,动态地重新排序指令以最大程度地利用可用的执行单元。

4)访存单元:处理加载和存储操作,包括数据缓存和地址生成单元等。

5)写回单元:将执行单元计算得到的结果写回到寄存器文件或内存中。

2 取指单元

取指单元是CPU运行第一个阶段,主要由指令缓存和计算取指地址的逻辑单元构成,指令缓存是该阶段的核心内容。

1)内存结构

CPU 内存结构通常分为多层,从高速、小容量的高级缓存到低速、大容量的主存储器,以及可能的外部存储器(例如磁盘),每一层都有不同的访问速度、容量和成本。

L1 缓存(一级缓存):

现代处理器的 L1 缓存一般分为 L1 ICache(指令缓存)和 L1 DCache(数据缓存),每个缓存大小通常在16KB到64KB之间,访问延迟在1个时钟周期。

L2 缓存(二级缓存):

L2 缓存的大小通常在数百KB到数MB之间,访问延迟相对于 L1 缓存会更长,大约在5到15个时钟周期之间。

L3 缓存(三级缓存):

L3 缓存通常是共享的,用于多个 CPU 核心之间共享数据。它的大小通常在几MB到数十MB之间,访问延迟相对于 L2 缓存会更长,大约在10到30个时钟周期之间。

主存储器(主内存):

主存储器是 CPU 访问数据的主要来源,其容量通常在几GB到数十GB之间,访问延迟相对于缓存会更长,通常在几十到数百个时钟周期之间。

2)指令缓存

指令缓存是一种特殊的高速缓存用于存储 CPU 执行的指令,提供快速访问指令的能力,以减少指令的访问延迟。

指令缓存分类

直接映射缓存:指令地址被映射到缓存中的一个固定的位置,每个指令地址只有一个可能的缓存位置。直接映射缓存的实现简单,在命中时可实现快速访问,但容易产生冲突。

全相联缓存:指令可以存储在缓存中的任何位置,没有固定的映射规则,每个指令地址都可以在缓存中的任何地方找到。全相联缓存通常需要更复杂的替换算法来管理缓存中的数据。

组相联缓存:缓存被分为多个组,每个组包含多个缓存行,指令地址被映射到某个组中的一个缓存行。组相联缓存结合了直接映射缓存和全相联缓存的优点,提供了更好的性能和成本效益。

替换策略选择

当需要访问的内存卡不在缓存中,触发缓存未命中,需要在缓存中选择剔除块进行替换,替换策略决定了当缓存满了时,哪个缓存块应该被替换掉,以便为新的数据腾出空间。

先进先出(FIFO):替换最早进入缓存的块,不管最近的访问情况。使用一个队列来跟踪缓存块的进入顺序,最早进入的块在需要替换时最先被移出,实现简单硬件开销低,但命中率可能较低,不能有效利用缓存块的访问历史信息。

最近最少使用(LRU):最近最少使用的指令被替换出去,需要维护一个访问记录列表或计数器,来跟踪每个缓存块的使用历史。具体实现可以通过链表、堆栈或计数器来记录每个缓存块的最近使用情况,具备较高的命中率,尤其是在具有较强局部性的访问模式下表现良好,是最简单的也是使用最广泛的一种替换策略。

随机替换策略(Random):随机选择一个缓存行来替换,命中率通常较低,无法利用缓存块的访问历史信息。

最少使用(LFU):替换访问次数最少的缓存块,假设使用频率较低的数据将来也不会被频繁访问。需要维护每个缓存块的访问计数器,对于具有固定访问模式的数据集,表现良好;对于变化频繁的访问模式,效果不佳。

最近最常使用(MRU):替换最近最常使用的缓存块。需要跟踪每个缓存块的使用情况,与 LRU 类似,对于某些特定的工作负载,可能有优势。

分段最近最少使用(SLRU):将缓存分为多个段例如冷热段,新加载的数据首先进入冷段,冷段的数据如果再次访问则提升到热段。分段缓存的管理需要两个或多个 LRU 列表,每个段有独立的 LRU 管理,提供更高的灵活性和命中率。

实例说明

L1 缓存:通常会采用 LRU 或 SLRU,因为这些缓存非常小(16KB到64KB),命中率至关重要,且访问速度要非常快。

L2 缓存:可能采用 SLRU 或 LFU,因为 L2 缓存的大小较大(256KB到2MB),需要在命中率和硬件开销之间取得平衡。

L3 缓存:可能采用更简单的替换策略如 FIFO 或 Random,因为 L3 缓存共享多个核心,且更关注缓存管理的整体效率。

指令缓存访问步骤

地址生成:CPU 发出指令访问请求时,会提供一个指令地址。

索引计算:根据缓存的组织结构,计算出指令地址在缓存中的索引。

索引比较:将索引与缓存中的索引进行比较,确定指令是否在缓存中。

标记比较:如果缓存中有匹配的索引,进一步比较标记以确定是否是所需的指令。

数据读取:如果命中缓存,就从缓存中读取所需的指令;如果缓存未命中,就从主存或下一级缓存中读取指令,并将其存储到缓存中以备后续访问。

这篇关于[处理器芯片]-3 超标量CPU实现之取指的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1005107

相关文章

Java的栈与队列实现代码解析

《Java的栈与队列实现代码解析》栈是常见的线性数据结构,栈的特点是以先进后出的形式,后进先出,先进后出,分为栈底和栈顶,栈应用于内存的分配,表达式求值,存储临时的数据和方法的调用等,本文给大家介绍J... 目录栈的概念(Stack)栈的实现代码队列(Queue)模拟实现队列(双链表实现)循环队列(循环数组

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

Android实现在线预览office文档的示例详解

《Android实现在线预览office文档的示例详解》在移动端展示在线Office文档(如Word、Excel、PPT)是一项常见需求,这篇文章为大家重点介绍了两种方案的实现方法,希望对大家有一定的... 目录一、项目概述二、相关技术知识三、实现思路3.1 方案一:WebView + Office Onl

C# foreach 循环中获取索引的实现方式

《C#foreach循环中获取索引的实现方式》:本文主要介绍C#foreach循环中获取索引的实现方式,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、手动维护索引变量二、LINQ Select + 元组解构三、扩展方法封装索引四、使用 for 循环替代

Spring Security+JWT如何实现前后端分离权限控制

《SpringSecurity+JWT如何实现前后端分离权限控制》本篇将手把手教你用SpringSecurity+JWT搭建一套完整的登录认证与权限控制体系,具有很好的参考价值,希望对大家... 目录Spring Security+JWT实现前后端分离权限控制实战一、为什么要用 JWT?二、JWT 基本结构

Java实现优雅日期处理的方案详解

《Java实现优雅日期处理的方案详解》在我们的日常工作中,需要经常处理各种格式,各种类似的的日期或者时间,下面我们就来看看如何使用java处理这样的日期问题吧,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言一、日期的坑1.1 日期格式化陷阱1.2 时区转换二、优雅方案的进阶之路2.1 线程安全重构2

Android实现两台手机屏幕共享和远程控制功能

《Android实现两台手机屏幕共享和远程控制功能》在远程协助、在线教学、技术支持等多种场景下,实时获得另一部移动设备的屏幕画面,并对其进行操作,具有极高的应用价值,本项目旨在实现两台Android手... 目录一、项目概述二、相关知识2.1 MediaProjection API2.2 Socket 网络

使用Python实现图像LBP特征提取的操作方法

《使用Python实现图像LBP特征提取的操作方法》LBP特征叫做局部二值模式,常用于纹理特征提取,并在纹理分类中具有较强的区分能力,本文给大家介绍了如何使用Python实现图像LBP特征提取的操作方... 目录一、LBP特征介绍二、LBP特征描述三、一些改进版本的LBP1.圆形LBP算子2.旋转不变的LB

Redis消息队列实现异步秒杀功能

《Redis消息队列实现异步秒杀功能》在高并发场景下,为了提高秒杀业务的性能,可将部分工作交给Redis处理,并通过异步方式执行,Redis提供了多种数据结构来实现消息队列,总结三种,本文详细介绍Re... 目录1 Redis消息队列1.1 List 结构1.2 Pub/Sub 模式1.3 Stream 结