本文主要是介绍用linux perf命令来分析程序的cpu cache miss现象,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
先来看一段简单的程序:
#include <stdio.h>
#include <unistd.h>int main(int argc, char **argv)
{int a[1000][1000];if(1 == argc){for(int i = 0; i < 1000; ++i){for(int j = 0; j < 1000; ++j){a[i][j] = 0;}}}else{for(int i = 0; i < 1000; ++i){for(int j = 0; j < 1000; ++j){a[j][i] = 0;}}}return 0;
}
上面有两个小程序片段, 哪段效率高? 显然, 第一段效率高, 为什么呢? 因为在C/C++中,数组是按行存储的,程序的按行访问可以充分利用程序的局部性原理(空间局部性), 用time命令来看看结果:
taoge$ time ./a.out real 0m0.006s
user 0m0.004s
sys 0m0.000s
taoge$ time ./a.out real 0m0.006s
user 0m0.004s
sys 0m0.000s
taoge$ time ./a.out real 0m0.006s
user 0m0.004s
sys 0m0.000s
taoge$ time ./a.out 1real 0m0.009s
user 0m0.004s
sys 0m0.008s
taoge$ time ./a.out 1real 0m0.010s
user 0m0.004s
sys 0m0.004s
taoge$ time ./a.out 1real 0m0.010s
user 0m0.004s
sys 0m0.004s
显然, 第二段程序的real time要大, 用perf分析下原因:
taoge$ perf stat -e L1-dcache-load-misses ./a.outPerformance counter stats for './a.out':101,870 L1-dcache-load-misses 0.005415735 seconds time elapsedtaoge$
taoge$
taoge$ perf stat -e L1-dcache-load-misses ./a.outPerformance counter stats for './a.out':100,231 L1-dcache-load-misses 0.005486385 seconds time elapsedtaoge$
taoge$
taoge$ perf stat -e L1-dcache-load-misses ./a.outPerformance counter stats for './a.out':103,496 L1-dcache-load-misses 0.005329914 seconds time elapsedtaoge$
taoge$
taoge$ perf stat -e L1-dcache-load-misses ./a.out 1Performance counter stats for './a.out 1':1,122,333 L1-dcache-load-misses 0.012910445 seconds time elapsedtaoge$
taoge$
taoge$ perf stat -e L1-dcache-load-misses ./a.out 1Performance counter stats for './a.out 1':1,093,971 L1-dcache-load-misses 0.009197791 seconds time elapsedtaoge$
taoge$
taoge$ perf stat -e L1-dcache-load-misses ./a.out 1Performance counter stats for './a.out 1':1,099,561 L1-dcache-load-misses 0.009234823 seconds time elapsedtaoge$
显而易见了, cache miss太多了。
理论联系实际地理解一下, 有好处。
这篇关于用linux perf命令来分析程序的cpu cache miss现象的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!