CSAPP Cache实验

2024-05-02 03:08
文章标签 实验 cache csapp

本文主要是介绍CSAPP Cache实验,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

程序A

#include <sys/time.h>

#include <unistd.h>

#include <stdio.h>

 

main(int argc,char *argv[])

{

  float *a,*b,*c, temp;

long int i, j, k, size, m;

struct timeval time1,time2;

if(argc<2) {

printf("\n\tUsage:%s <Row of squarematrix>\n",argv[0]);

exit(-1);

} //if

size = atoi(argv[1]);

m = size*size;

a = (float*)malloc(sizeof(float)*m);

b = (float*)malloc(sizeof(float)*m);

c = (float*)malloc(sizeof(float)*m);

for(i=0;i<size;i++)

for(j=0;j<size;j++){

a[i*size+j] = (float)(rand()%1000/100.0);

b[i*size+j] = (float)(rand()%1000/100.0);

}

gettimeofday(&time1,NULL);

   for(i=0;i<size;i++)

for(j=0;j<size;j++)

{

   c[i*size+j] = 0;

for (k=0;k<size;k++)

c[i*size+j] += a[i*size+k]*b[k*size+j];

   }

gettimeofday(&time2,NULL);

time2.tv_sec-=time1.tv_sec;

time2.tv_usec-=time1.tv_usec;

if (time2.tv_usec<0L){

time2.tv_usec+=1000000L;

time2.tv_sec-=1;

}

printf("Executiontime=%ld.%6ldseconds\n",time2.tv_sec,time2.tv_usec);

} //for

return(0);

}//main

 

程序B:

#include <sys/time.h>

#include <unistd.h>

#include <stdio.h>

main (int argc,char *argv[])

{

float *a,*b,*c,temp;
long int i,j,k,size,m;
struct timeval time1,time2;
if (argc<2)
{

printf("\n\tUsage:%s <Row of squarematrix>\n",argv[0]);
exit(-1);

}

size=atoi(argv[1]);

m=size*size;

a=(float*)malloc(sizeof(float)*m);

b=(float*)malloc(sizeof(float)*m);

c=(float*)malloc(sizeof(float)*m);

for(i=0;i<size;i++)
  for(j=0;j<size;j++)
  {

a[i*size+j]=(float)(rand()%1000/100.0);

c[i*size+j]=(float)(rand()%1000/100.0);

}

gettimeofday(&time1,NULL);

for (i=0;i<size;i++)

for (j=0;j<size;j++)

{

b[i*size+j] =c[j*size+i];

for(i=0;i<size;i++)

for(j=0;j<size;j++)

{

       c[i*size+j]= 0;

for(k=0;k<size;k++)

c[i*size+j]+= a[i*size+k] * b[j*size+k];

} //for

gettimeofday(&time2,NULL);

time2.tv_sec-=time1.tv_sec;

time2.tv_usec-=time1.tv_usec;

if(time2.tv_usec<0L)

{

      time2.tv_usec+=1000000L;

time2.tv_sec-=1;

}

printf("Executiontime=%ld.%6ldseconds\n",time2.tv_sec,time2.tv_usec);

}//for

return(0);

}

 

四、实验结果及分析

 

1、  用C语言实现矩阵(方阵)乘积一般算法(程序A),填写下表:

矩阵大小

100

500

1000

1500

2000

2500

3000

一般算法执行时间

0. 4761

0.545355

4.501892

37.527864

81.996566

167.274540

302.754285

 

分析:

1)   由图下图1可得到上表的结果,程序的主要代码如下黄色背景,对二维数组b是跳跃的,类似下图2的访问顺序,这样导致了程序的空间局部性很差:

for(j=0;j<size;j++)

{

   c[i*size+j] = 0;

for(k=0;k<size;k++)

c[i*size+j] +=a[i*size+k]*b[k*size+j];

   }

 

图1


图2

2)   以下图3说明为什么空间局部性差:

 


 图3

 

 

 

 

 

2、  程序B是基于Cache的矩阵(方阵)乘积优化算法,填写下表:

矩阵大小

100

500

1000

1500

2000

2500

3000

优化算法执行时间

0.4831

0.512749

4.61557

13.537300

33.366774

63.980002

112.299316

 

分析:

1)       由下图4可以得到上表的数据,由标黄的主要代码可知,优化后的代码访问数组b的顺序类似下图5,这样相对程序A对cache的命中率大大得到了提高:

for(j=0;j<size;j++)

{

      c[i*size+j] = 0;

for (k=0;k<size;k++)

c[i*size+j] += a[i*size+k] *b[j*size+k];

} //for

图4

图5

2)       同样由图6说明为什么程序B的空间局部性好:

图6

3)       图7为程序A和程序B的性能对比,可以看出,当size越来越大时,cache的对性能的影响越明显:

图7

 

 

3、  优化后的加速比(speedup)

矩阵大小

100

500

1000

1500

2000

2500

3000

加速比

0.98551

1.063591

0.975371

2.772182

2.457432

2.614482

2.695958

 

加速比定义:加速比=优化前系统耗时/优化后系统耗时;

所谓加速比,就是优化前的耗时与优化后耗时的比值。加速比越高,表明优化效果越明显。

 

分析:由下图8知,总体上来说,当size越大时,对程序B的优化效果越好,即命中率更高,局部空间性更好。

 

图8

 

五、实验总结与体会

 

1、通过该实验,对cache的原理有了感性上的一点认识,即因为cpu和主存的速度上的差距,故而在CPU和主存之间设计了一级或多级的cache,cache为SRAM(静态随机存储器),因为cache时钟周期明显高于主存,故而加快了计算机的速度;

2、Cache和主存或cache和cache之间的数据传输是以块为最小单位,块里面保存着多个相邻地址的数据。例如:程序中存在一个数组int型b[4][4],块的大小为16字节,当第一次使用该数组时,例如使用了b[0][0],会将主存中b[0][0]所在块放到cache中,因为块保存着主存相邻的数据,故而它里面很可能包含着b[0][1]、b[0][2]、b[0][3],如果按b[0][1]、b[0][2]、b[0][3]顺序调用数组,这样就提高了cache的命中率,减少了时钟周期。如果按照b[1][0]、b[2][0]、b[3][0]的顺序访问,则因为cache的空间有限,当引入b[1][0]、b[2][0]、b[3][0]所在块时,可能将b[0][0]所在的块替换了,此时CPU再使用b[0][1]时,则需要重新从主存中拷贝b[0][1]所在块,这使cache的命中率下降了,增加了时间周期;

3、我们以后写程序时,要考虑到cache的原理,这样我们的写的程序执行起来才更高效。

 

这篇关于CSAPP Cache实验的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/953271

相关文章

STM32(十一):ADC数模转换器实验

AD单通道: 1.RCC开启GPIO和ADC时钟。配置ADCCLK分频器。 2.配置GPIO,把GPIO配置成模拟输入的模式。 3.配置多路开关,把左面通道接入到右面规则组列表里。 4.配置ADC转换器, 包括AD转换器和AD数据寄存器。单次转换,连续转换;扫描、非扫描;有几个通道,触发源是什么,数据对齐是左对齐还是右对齐。 5.ADC_CMD 开启ADC。 void RCC_AD

HNU-2023电路与电子学-实验3

写在前面: 一、实验目的 1.了解简易模型机的内部结构和工作原理。 2.分析模型机的功能,设计 8 重 3-1 多路复用器。 3.分析模型机的功能,设计 8 重 2-1 多路复用器。 4.分析模型机的工作原理,设计模型机控制信号产生逻辑。 二、实验内容 1.用 VERILOG 语言设计模型机的 8 重 3-1 多路复用器; 2.用 VERILOG 语言设计模型机的 8 重 2-1 多

61.以太网数据回环实验(4)以太网数据收发器发送模块

(1)状态转移图: (2)IP数据包格式: (3)UDP数据包格式: (4)以太网发送模块代码: module udp_tx(input wire gmii_txc ,input wire reset_n ,input wire tx_start_en , //以太网开始发送信

LTspice模拟CCM和DCM模式的BUCK电路实验及参数计算

关于BUCK电路的原理可以参考硬件工程师炼成之路写的《 手撕Buck!Buck公式推导过程》.实验内容是将12V~5V的Buck电路仿真,要求纹波电压小于15mv. CCM和DCM的区别: CCM:在一个开关周期内,电感电流从不会到0. DCM:在开关周期内,电感电流总会到0. CCM模式Buck电路仿真: 在用LTspice模拟CCM电路时,MOS管驱动信号频率为100Khz,负载为10R(可自

HCIA--实验十:路由的递归特性

递归路由的理解 一、实验内容 1.需求/要求: 使用4台路由器,在AR1和AR4上分别配置一个LOOPBACK接口,根据路由的递归特性,写一系列的静态路由实现让1.1.1.1和4.4.4.4的双向通信。 二、实验过程 1.拓扑图: 2.步骤: (下列命令行可以直接复制在ensp) 1.如拓扑图所示,配置各路由器的基本信息: 各接口的ip地址及子网掩码,给AR1和AR4分别配置

OpenGL/GLUT实践:流体模拟——数值解法求解Navier-Stokes方程模拟二维流体(电子科技大学信软图形与动画Ⅱ实验)

源码见GitHub:A-UESTCer-s-Code 文章目录 1 实现效果2 实现过程2.1 流体模拟实现2.1.1 网格结构2.1.2 数据结构2.1.3 程序结构1) 更新速度场2) 更新密度值 2.1.4 实现效果 2.2 颜色设置2.2.1 颜色绘制2.2.2 颜色交互2.2.3 实现效果 2.3 障碍设置2.3.1 障碍定义2.3.2 障碍边界条件判定2.3.3 障碍实现2.3.

[项目][CMP][Thread Cache]详细讲解

目录 1.设计&结构2.申请内存3.释放内存4.框架 1.设计&结构 Thread Cache是哈希桶结构,每个桶是一个按桶位置映射大小的内存块对象的自由链表 每个线程都会有一个Thread Cache对象,这样每个线程在这里获取对象和释放对象时是无锁的 TLS – Thread Local Strorage Linux gcc下TLSWindows vs下TLS

pta-2024年秋面向对象程序设计实验一-java

文章申明:作者也为初学者,解答仅供参考,不一定是最优解; 一:7-1 sdut-sel-2 汽车超速罚款(选择结构) 答案: import java.util.Scanner;         public class Main { public static void main(String[] arg){         Scanner sc=new Scanner(System

[项目][CMP][Central Cache]详细讲解

目录 1.设计&结构2.申请内存3.释放内存4.框架 1.设计&结构 Central Cache也是一个哈希桶结构,它的哈希桶的映射关系跟Thread Cache是一样的不同的是它的每个哈希桶位置挂的是SpanList链表结构(带头双向循环链表),不过每个映射桶下面的span中的大内存块被按映射关系切成了一个个小内存块对象挂在span的自由链表中 8Byte映射位置下面挂的是

如何校准实验中振镜频率的漂移

在实验过程中,使用共振扫描振镜(如Cambridge Technology的8kHz振镜)时,频率漂移是一个常见问题,尤其是在温度变化或长期运行的情况下。为了确保实验的准确性和稳定性,我们需要采取有效的校准措施。本文将介绍如何监测、调节和校准振镜频率,以减少漂移对实验结果的影响。 1. 温度管理和稳定性控制 振镜的频率变化与温度密切相关,温度的升高会导致机械结构的变化,进而影响振镜的共