本文主要是介绍[处理器芯片]-3 超标量CPU实现之取指,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1 超标量CPU结构
前端(Frontend)
前端负责从程序中提取指令,并将其转换为微操作送入CPU的流水线中。
1)取指单元:从指令缓存或内存中提取指令,并将其送入流水线。
2)分支预测单元:负责预测分支指令的执行路径,以提前加载正确的指令,减少分支带来的流水线停顿。
3)译码器:将获取到的指令解码成CPU内部理解的格式,以便后续阶段的执行。
4)寄存器重命名:将逻辑寄存器重命名为物理寄存器,以解决数据依赖关系,避免数据冒险,并提高指令级并行度。
5)分发和发射:将已经译码并重命名的指令发送到相应的执行单元,并在需要时进行缓存或排队。在发射阶段,指令被提交给调度器进行后续处理。
6)调度器:负责根据指令的依赖关系和可用资源,将指令调度到可用的执行单元中,包括确定指令的执行顺序,管理执行单元的利用率,并确保指令的正确执行。调度器还负责管理处理器的资源,包括执行单元、寄存器文件等,它会跟踪资源的使用情况,以确保所有指令都能够得到充分利用,同时避免资源冲突和竞争。
后端(Backend)
后端负责实际执行指令和处理数据。
1)执行单元:包括整数单元、浮点单元、加载/存储单元等,负责执行各种不同类型的指令。
2)寄存器文件:存储CPU中的通用寄存器和状态寄存器,执行单元从寄存器文件中读取操作数并将结果写回。
3)乱序引擎:实现乱序执行功能,动态地重新排序指令以最大程度地利用可用的执行单元。
4)访存单元:处理加载和存储操作,包括数据缓存和地址生成单元等。
5)写回单元:将执行单元计算得到的结果写回到寄存器文件或内存中。
2 取指单元
取指单元是CPU运行第一个阶段,主要由指令缓存和计算取指地址的逻辑单元构成,指令缓存是该阶段的核心内容。
1)内存结构
CPU 内存结构通常分为多层,从高速、小容量的高级缓存到低速、大容量的主存储器,以及可能的外部存储器(例如磁盘),每一层都有不同的访问速度、容量和成本。
L1 缓存(一级缓存):
现代处理器的 L1 缓存一般分为 L1 ICache(指令缓存)和 L1 DCache(数据缓存),每个缓存大小通常在16KB到64KB之间,访问延迟在1个时钟周期。
L2 缓存(二级缓存):
L2 缓存的大小通常在数百KB到数MB之间,访问延迟相对于 L1 缓存会更长,大约在5到15个时钟周期之间。
L3 缓存(三级缓存):
L3 缓存通常是共享的,用于多个 CPU 核心之间共享数据。它的大小通常在几MB到数十MB之间,访问延迟相对于 L2 缓存会更长,大约在10到30个时钟周期之间。
主存储器(主内存):
主存储器是 CPU 访问数据的主要来源,其容量通常在几GB到数十GB之间,访问延迟相对于缓存会更长,通常在几十到数百个时钟周期之间。
2)指令缓存
指令缓存是一种特殊的高速缓存用于存储 CPU 执行的指令,提供快速访问指令的能力,以减少指令的访问延迟。
指令缓存分类
直接映射缓存:指令地址被映射到缓存中的一个固定的位置,每个指令地址只有一个可能的缓存位置。直接映射缓存的实现简单,在命中时可实现快速访问,但容易产生冲突。
全相联缓存:指令可以存储在缓存中的任何位置,没有固定的映射规则,每个指令地址都可以在缓存中的任何地方找到。全相联缓存通常需要更复杂的替换算法来管理缓存中的数据。
组相联缓存:缓存被分为多个组,每个组包含多个缓存行,指令地址被映射到某个组中的一个缓存行。组相联缓存结合了直接映射缓存和全相联缓存的优点,提供了更好的性能和成本效益。
替换策略选择
当需要访问的内存卡不在缓存中,触发缓存未命中,需要在缓存中选择剔除块进行替换,替换策略决定了当缓存满了时,哪个缓存块应该被替换掉,以便为新的数据腾出空间。
先进先出(FIFO):替换最早进入缓存的块,不管最近的访问情况。使用一个队列来跟踪缓存块的进入顺序,最早进入的块在需要替换时最先被移出,实现简单硬件开销低,但命中率可能较低,不能有效利用缓存块的访问历史信息。
最近最少使用(LRU):最近最少使用的指令被替换出去,需要维护一个访问记录列表或计数器,来跟踪每个缓存块的使用历史。具体实现可以通过链表、堆栈或计数器来记录每个缓存块的最近使用情况,具备较高的命中率,尤其是在具有较强局部性的访问模式下表现良好,是最简单的也是使用最广泛的一种替换策略。
随机替换策略(Random):随机选择一个缓存行来替换,命中率通常较低,无法利用缓存块的访问历史信息。
最少使用(LFU):替换访问次数最少的缓存块,假设使用频率较低的数据将来也不会被频繁访问。需要维护每个缓存块的访问计数器,对于具有固定访问模式的数据集,表现良好;对于变化频繁的访问模式,效果不佳。
最近最常使用(MRU):替换最近最常使用的缓存块。需要跟踪每个缓存块的使用情况,与 LRU 类似,对于某些特定的工作负载,可能有优势。
分段最近最少使用(SLRU):将缓存分为多个段例如冷热段,新加载的数据首先进入冷段,冷段的数据如果再次访问则提升到热段。分段缓存的管理需要两个或多个 LRU 列表,每个段有独立的 LRU 管理,提供更高的灵活性和命中率。
实例说明
L1 缓存:通常会采用 LRU 或 SLRU,因为这些缓存非常小(16KB到64KB),命中率至关重要,且访问速度要非常快。
L2 缓存:可能采用 SLRU 或 LFU,因为 L2 缓存的大小较大(256KB到2MB),需要在命中率和硬件开销之间取得平衡。
L3 缓存:可能采用更简单的替换策略如 FIFO 或 Random,因为 L3 缓存共享多个核心,且更关注缓存管理的整体效率。
指令缓存访问步骤
地址生成:CPU 发出指令访问请求时,会提供一个指令地址。
索引计算:根据缓存的组织结构,计算出指令地址在缓存中的索引。
索引比较:将索引与缓存中的索引进行比较,确定指令是否在缓存中。
标记比较:如果缓存中有匹配的索引,进一步比较标记以确定是否是所需的指令。
数据读取:如果命中缓存,就从缓存中读取所需的指令;如果缓存未命中,就从主存或下一级缓存中读取指令,并将其存储到缓存中以备后续访问。
这篇关于[处理器芯片]-3 超标量CPU实现之取指的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!