(书稿底稿）（C/C++）第一章：CPU基础知识 1.2.3 CORE内核 1.2.4 多核概念

本文主要是介绍(书稿底稿）（C/C++）第一章：CPU基础知识 1.2.3 CORE内核 1.2.4 多核概念，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1.2.3 CORE内核

处理器架构和核心微架构

上面已经描述了，CPU被分为前端和后端，它们又被多个功能块（function block）组成，如：解码单元（decode unit）、预处理分支单元（branch-prediction unit）、整数单元（integer unit）、加载存储单元（load-store unit），这些单元又有其他小单元组成如复杂整数执行单元（complex integer unit）浮点计算单元（flating-point ALU）。

微体系架构（microarchitecture）就是上面这些所有的单元组合了一起，也称为内核（core），一般CPU的内核包含了一级缓存L1，我们一般看CPU的概念图就会发现概念图上只会标注core、二级缓存L2以及其他功能单元，一级缓存因为整合到了core中，从而概念图上只标注了core而无L1，但大家不要误认为没有一级缓存，如AMD的概念图图。整个CPU是有内核CORE部分和其他辅助单元组成，就像航母战斗群，以各个航母为核心，每个航母配备一套战舰组成单独航母战斗单位，所有的航母战斗单位组成整个航母战斗群。我们可以将航母战斗群理解成完整的CPU，各个航母对应内核core，其辅助战舰就是其他各个单元。

一级缓存、前端、后端也就是内核部分和CPU中其他单元都是独立的，如CORE和L2、L3和内存控制器（memorycontroler）是相互独立的。将内核和其他部分区分开，一般来说可以丰富产品的型号，比如现在流行的corei7系列CPU，有4款多型号，

1.2.4 多核概念

多核处理器有2种存放方式（增加超线程 COREI7就用的HT）

将多个CPU直接插到同一个计算机上，也就是主板上，供同一个操作系统使用。这样的架构，如果系统需要更多CPU，只需要在主板上再多插一个即可，一般这种技术只用在超级计算机、大型机和服务器上（增加这种图片）
CMP（chipmultiprocessing）:将多个CPU内核（core）设计制造到一个CPU中，从Core 2开始PC才有的这个技术

CMP按照实际情况又分：

如Pentium D 每个core都有自己的L2，因此各个core之间并无共享的缓存，无法直接通信，只能通过总线通信，这个模式和我们小区很相似，我们小区只有两栋大楼，2个大楼之间没有直接连通，每个大楼都有自己单独的走廊和楼梯，因此如果另一栋楼里住着你的朋友，你想给他东西，双方就必须都走到小区的公园，才能交换东西。因此这种模式效率比较差，因为双方无法直接交换东西，只能走到大楼外，交换完东西再回去。同样，这样的CPU的core之间交换数据，都必须走出自己的L2，到公共的普通内存中交换数据，然后将数据放回自己的L2，再进行读取。具体CPU如何使用缓存读取信息在后面章节介绍，这里只需要了解他们会这么处理就好。
这种多核CPU整合度比较深入，其代表就是现在的酷睿系统的CPU，这种整合方法为：L1私有，因为上面我们说了L1属于内核部分，内核的组成单元都是私有的，L2为共有，因为L2公有，多核core都处理同一个L2，就可能出现同时写一块内存，或者一个写入未成功时另一个就进行读取，为了避免这些情况出现，CPU中内置了负责协调访问L2的内存控制单元。这种整合方式好处有：

第一：节约，绿色环保，每个L2都需要电压支撑才能工作，只有一个L2时，就节约了制造L2的材料和对应的电力需求；

第二：因为L2是共享的，因此core之间可以通过L2直接交互信息而不是通过总线，效率高，大幅增加了Cache的命中率；

第三：提升程序运行效率，当多个core执行程序时使用了同一段代码或数据，只需要在L2中维持一份拷贝边可以同时访问，访问需要同步的数据或者volatile变量时，不需要CPU每次访问都要在各个L2中进行数据同步。

第四：Intel采用了高智能cache技术，使得每个核心都可以动态支配100%的全部cache，如：某个内核对cache利用率很低，另一个内核就会动态增加L2的使用比率，最大程度高效使用缓存；

最新的Core i7 则是L1 L2私有，共用L3，如图

在介绍第一种架构的范例中：小区存在的种种弊端，在911后，建筑设计师们已经意识到并进行了改进，很多新建筑都采用了“空中走廊”技术，各大楼在高层之间建立互联的通道，方便大楼之间走动并且提高发生灾难时的人员逃亡率。

现在，CPU中开始融合GPU，其融合的思路和我们上面介绍的多核原理相同，以前因为CPU和GPU要通过主板利用总线通讯，这样的速度无论如何都比不上将GPU整合到CPU中，直接在CPU中通过共享的内存进行相互通讯的速度。典型的技术有AMD的APU，Intel的Sandy Bridge技术，其融合的进展和上面介绍的步骤也大致相同，最开始的融合，就是比较生硬的直接将GPU和CPU融合到同一个硅片中，通过内存控制器进行互相通信，目前的融合只是对这个方法进行了优化还处于低级阶段，严格说还未真正做到融合，就像夫妻刚结婚一样，大家只是住到同一个房子中，沟通确实方便了，但是存折啥的未共享，还是存在障碍。而真正的融合需要达到尽可能的完全共享，如：地址空间、完全融合的内存系统、线程并发等。AMD预计最少2014年才能基本达成高融合。