（书稿底稿）（C/C++）第一章：CPU基础知识 1.1CPU和程序的执行

本文主要是介绍（书稿底稿）（C/C++）第一章：CPU基础知识 1.1CPU和程序的执行，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

第一章：CPU基础知识

简介

如果说我们每个人比喻成一台计算机的话，那么我们的大脑就是CPU，大脑是处理所有事情的核心，甚至控制了我们的味觉，即便我们使用设备，辅助我们对事务进行处理以代替部分大脑工作，但是大脑是无法被替代的，最基本的，我们需要知道如何使用设备，这就需要大脑的控制。只有人类了解大脑，人类才能够真正的理解了自己。

编译器将程序源代码转换为前后有逻辑关系的一系列机器指令和机器指令需要的数据，这些指令和数据组合到一起就构成了程序，软件执行就是将这些内容交给CPU执行，因此可以将电脑上所有的软件视为机器指令和数据的集合。虽然现在已经开始使用数学运算能力强大、并发性能高的GPU，如超级计算机“天河一号”使用了2560块显卡，但依然依赖CPU进行指令调度，将CPU不擅长的浮点运算交由GPU处理。CPU的作用并非简单的运算、调度功能，它内置很多强大的功能，比如内存保护等，因此CPU一直是计算机的核心也是程序执行的核心。CPU的一些特性影响了操作系统和编译器的行为，而操作系统和编译器的行为影响了程序的编码和执行，因此只有了解了CPU、编译器和操作系统基础知识，才能更深入的理解程序的运行。

本章只对最基本的CPU知识做简单介绍，以便大家理解基于CPU特性的编译器和操作系统的行为，进而理解一些编程理念。CPU架构和设计很复杂，本书只对直接影响程序行为的设计进行介绍。编译器基本知识在其他章节介绍。

1.1 CPU和程序的执行

1.1 CPU执行基本知识

我们从一个很常见的工作中常常碰到的情况为例开始本章的学习：

你是一家公司的总裁秘书，专门负责处理总裁的事务，工作都是由总裁指定。周一你去上班，因为堵车总裁无法及时赶到公司，就给你打电话说：要处理一个紧急文件，处理的方法、文件柜打开方法和文件名称都记录在备忘录放在他的办公桌上，你只需要找到这个备忘录按照上面记录的方法进行处理即可。

这个例子中备忘录上的内容加上要处理的文件就等同于系统中的程序。备忘录上记录的文件处理方法和文件柜打开方法对应程序中的指令，文件柜和被处理的文件对应程序中的数据。程序开始执行后：指令控制CPU使用提供的数据执行一系列操作，得到预期最终的结果；你这位总裁秘书开始工作后：按照备忘录上的记录的方法打开文件柜，取出文件开始处理，最终得到总裁满意的结果。因此程序本身根本不神秘，不过是存放指令和数据的文件而已，计算机软件是程序的有序集合而程序时指令的有序集合，程序的执行完全可以想象成：使用预定义的指令去处理预定义的数据，得到期望的结果（图2）。根据这个原理，编程时，如果没有思路了，就按照下面步骤进行思考（图2）：

现在有哪些数据可供使用（代码中的数据）
要得到什么结果（执行完毕后的预期结果）
如何处理这些数据才能得到预期结果（代码执行逻辑也就是指令）
补充数据（如果上述步骤无法解决，反思是否缺少数据）

图 1

指令介绍：

我们由一个例子来开始我们的话题：用C实现出一个简单的3+2+1的运算，然后我们用对应的汇编语言来探讨其相关基础知识和执行，因为本书讲述重点是C/C++，本章是为大家了解相关知识，具体深入的知识自行查询相关资料

3+2+1求和的C程序：

/*testsum.c*/

#include <stdlib.h>

int main()

{

int total = 0;

int i = 3;

while(0!=i)

{

total+=i;

--i;

}

return 0;

}

我们不要进行优化编译，因为编译器增加的调试信息对于跟踪代码执行有帮助，编译完毕后，我们查看起汇编代码，查看方法：

第一种：objdump –D filename，filename代表可执行程序名或目标文件，

第二种：启动GDB调试，gdb filename，然后在main函数中打一个断点，等执行到此断点就执行命令：disassemble，这个指令的含义就是查看本函数的汇编代码，其详细意义在后续章节中做介绍

对应的汇编代码：代码中最左边的地址，不同的机器其值可能不同，我们只关注对我们有意义的部分

0x08048394 <+0>: push %ebp

0x08048395<+1>: mov %esp,%ebp

0x08048397<+3>: sub $0x10,%esp

0x0804839a <+6>: movl $0x0,-0x4(%ebp)

0x080483a1 <+13>: movl $0x3,-0x8(%ebp)

0x080483a8<+20>: jmp 0x80483b4 <main+32>

0x080483aa<+22>: mov -0x8(%ebp),%eax

0x080483ad<+25>: add %eax,-0x4(%ebp)

0x080483b0<+28>: subl $0x1,-0x8(%ebp)

0x080483b4<+32>: cmpl $0x0,-0x8(%ebp)

0x080483b8 <+36>: jne 0x80483aa<main+22>

0x080483ba<+38>: mov $0x0,%eax

0x080483bf<+43>: leave

0x080483c0<+44>: ret

我们将汇编和C程序代码一一对应起来

<+6>: movl $0x0,-0x4(%ebp) inttotal = 0;

<+13>: movl $0x3,-0x8(%ebp) inti = 3；

<+20>: jmp 0x80483b4 <main+32> {

<+22>: mov -0x8(%ebp),%eax i; (取变量i的值)

<+25>: add %eax,-0x4(%ebp) total+=i

<+28>: subl $0x1,-0x8(%ebp) --i；

<+32>: cmpl $0x0,-0x8(%ebp) }while(0!=i)

<+36>: jne 0x80483aa <main+22>

<+38>: mov $0x0,%eax

图 2

范例中汇编语句每一行就是一个单独的汇编指令，在本章我们就简称为指令，在范例中可以观察到：指令由两部分组成（如图2）：操作码字段和地址码字段。在本章后续内容：我们首先讲述指令的格式和指令集，然后讲述指令的执行：包含提取指令、提取数据的方法和指令生命周期阶段，最后我们讲述缓存对指令和程序的影响。

指令格式和指令集：

指令：是计算机硬件能够识别并直接执行操作的命令，一台计算机所有的指令集合构成计算机指令系统，每条指令能够完成一个独立的算术或逻辑运算，计算机的指令一般分为微指令、机器指令和宏指令，机器指令就是我们常说的指令；

大多数计算机中，每一条指令都被分配了唯一的编号也就是操作码，被以机器指令代码的形式进行存储；

程序源码中各种关键字包括：算术操作符（加、减、乘、除、取模等）、逻辑处理（if、while等）和分支处理（goto等）命令等，用来具体指明要CPU做哪些操作，他们会被编译器编译为指令；

数据：指令格式由操作码字段和地址码字段组成，操作码字段对应的就是指令，地址码字段说明被指令操作的对象所在寄存器或内存的地址，这个被指令操作的对象，就是数据

程序中各种变量所包含的内容也就是内存中的值，变量存储方法包含：堆、栈、全局变量空间，具体的内容后面有介绍，这些就是数据，他们会被编译为非执行代码；

异或、反码、补码、原码、正负数表达、移位

有句个笑话说，沙僧在西游记里只有五句台词：

大师兄，师傅被妖怪抓走了
二师兄，师傅被妖怪抓走了
大师兄，二师兄被妖怪抓走了
大师兄，师傅和二师兄被妖怪抓走了
师傅，大师兄回来救我的

比起沙僧，像孙悟空一样强大的CPU更凄惨，只有三句台词：

从程序中取出指令
从程序中取出数据，
用指令处理数据

CPU是如何执行的呢？我们看个例子：2+3=5为范例（图2），根据CPU的台词，我们依次进行，所有的指令核心都相同，复杂的语句只是由很多简单的语句组成的：

1 . 取出指令：取操作符加号

2. 取数据：取操作数 2和3

3. 用指令处理数据：用2加上3，得到结果5

图 3

根据CPU的台词，我们可以很容易发现：程序的代码分为执行代码和非执行代码，由指令组成的代码语句称为执行代码，由数据组成的代码语句称为数据代码。执行代码（如3+4）可以控制CPU的逻辑；非执行代码也可称为声明代码，包含了各种变量的声明，它不会产生可执行代码，只是占用内存空间，存放数据，如 int value = 4，这行语句只在创建栈的时候使用，函数执行时并不会生成对应代码，因此禁止在这样语句中使用执行代码，如 int value=strlen(s)。C99之前的C语言标准，非执行代码和执行代码不可以混放，为了方便和更加弹性C99标准之后允许了混放。在公司中，员工就是执行代码，利用各种资产这些非执行代码进行着工作。