Intel性能分析工具Vtune安装和使用简介

2024-04-18 12:04

本文主要是介绍Intel性能分析工具Vtune安装和使用简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、介绍

Intel Vtune profiler是用于串行和多线程应用程序的性能分析工具,可以帮助软件开发人员对应用程序的性能问题进行分析,支持包括linux和windows在内的多种操作系统。主要功能包括:

  • 性能分析:可以对应用程序进行深入的性能分析,帮助用户了解应用程序在不同的硬件和软件环境下的运行情况。
  • 热点检测:可以识别出程序中的热点部分,指导开发者进行优化。
  • 性能瓶颈分析:通过分析CPU、内存、IO等各个方面的性能,帮助确定应用程序的性能瓶颈。
  • 多线程分析:对于多线程应用程序,能够分析线程的运行状况,包括线程的同步、竞争和死锁等问题。

二、安装

tee > /tmp/oneAPI.repo << EOF
[oneAPI]
name=Intel® oneAPI repository
baseurl=https://yum.repos.intel.com/oneapi
enabled=1
gpgcheck=1
repo_gpgcheck=1
gpgkey=https://yum.repos.intel.com/intel-gpg-keys/GPG-PUB-KEY-INTEL-SW-PRODUCTS.PUB
EOF

将oneAPI.repo移动到/etc/yum.repos.d目录中,执行

yum install intel-oneapi-vtune

安装vtune工具

如果是使用root用户进行安装的,安装完成后,默认的安装目录是在/opt/intel/oneapi/vtune中,执行

source /opt/intel/oneapi/vtune/latest/env/vars.sh

之后就可以在命令行界面中使用vtune命令了。

为了验证vtune profiler是否能够正确使用以及在安装过程中是否存在某些未知问题,可以运行安装包中的一个自动测试脚本,此脚本会运行对一个示例应用程序的分析

运行如下命令:

sh /opt/intel/oneapi/vtune/latest/bin64/vtune-self-checker.sh

此脚本会运行几分钟进行必要的信息收集,如果一切正常会产生对应的输出。

三、使用

3.1 默认测试用例使用

在vtuned中自带了一个测试用例matrix,目录位于/opt/intel/oneapi/vtune/latest/samples/en/C++/matrix

在vtune的welcome界面点击New Project创建一个新的项目

在Project name栏输入项目名称(自定义),Location输入项目存放路径(任意)

项目创建完成自动进入Configure Analysis目录,Where选择Local Host(默认),Launch Application->Application处选择二进制文件的位置,也可以使用进程pid或者进行整系统的监测,修改WHAT的类型即可

我们这里是/opt/intel/oneapi/vtune/latest/samples/en/C++/matrix,点击start按钮

vtune自动执行分析操作

执行完成后会输出summary

右上部分是一些基本的衡量指标,中间部分是可以进行进一步分析的方向,其中标红是推荐进行分析的方向。

接下来可对应用程序进行性能瓶颈分析,优化,然后再次执行性能分析工作来判断性能是否提升。

下一步分析方向有以下几个点:

算法分析:

热点分析用来查找代码花费时间最多的位置。

异常监测识别频繁重复代码中的性能异常问题。

内存消耗分析分析应用进程的内存消耗情况,仅适用于linux。

微架构分析:

微架构识别CPU流水线中的性能瓶颈。

内存访问分析应用程序的内存,查看CPU的缓存和主存使用情况。

并行性分析:

线程分析线程的并行度,定位并发度低的原因以及代码中的串行瓶颈。

HPC性能分析计算密集型应用程序如何使用CPU、内存和FPU的资源。

IO分析:

分析IO系统、总显得利用率

加速单元:

GPU offload分析应用程序是否存在GPU限制。

GPU热点分析GPU绑定的应用程序执行效率低的问题

CPU/FPGC分析FPGA的利用率

平台分析:

系统概述识别限制性能的平台因素

Platform Profiler手机较长时间内满负荷运行的系统数据

3.2 测试用例分析

matrix用例的功能是一个矩阵乘法器。

可以选择以下任意一种乘法核进行运算,需要在multiply.h头文件中对MULTIPLY的宏定义进行修改然后重新通过make编译程序。

multiply0:最基本的单线程实现

multiply1:最基本的多线程实现

multiply2:使用循环交换和向量化进行优化的实现(使用了编译器的向量选项)

multiply3:使用了cache blocking和data align的优化

multiply4:使用了matrix transposition和loop unrolling的优化

multiply5:使用Intel MKL优化

线程使用方式:线程模型使用系统自定义的,linux上是pthreads,windows上是win32 threads,OpenMP线程模型也可以使用。

修改线程模型:windows上选择使用Release,Release_OMP或者Release_MKL配置

linux上在Makefile文件中修改PARAMODEL为USE_THR,USE_OMP或者USE_MKL

矩阵属性:默认情况下矩阵的大小是2048,如果需要增大matrix的大小可以在multiply.h中重新定义MAXTHREADS的值,需要确保这个值是线程的倍数。默认情况下执行线程数目等于CPU cores的数目,可以修改MAXTHREADS来修改线程数。

vtune自带的测试用例matrix.c文件(在/opt/intel/oneapi/vtune/latest/samples/en/C++/matrix/src目录下)需要修改

#include

修改为

#include

否则会报出找不到gettimeofday的错误

这篇关于Intel性能分析工具Vtune安装和使用简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/914726

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Java中String字符串使用避坑指南

《Java中String字符串使用避坑指南》Java中的String字符串是我们日常编程中用得最多的类之一,看似简单的String使用,却隐藏着不少“坑”,如果不注意,可能会导致性能问题、意外的错误容... 目录8个避坑点如下:1. 字符串的不可变性:每次修改都创建新对象2. 使用 == 比较字符串,陷阱满

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

Linux使用nload监控网络流量的方法

《Linux使用nload监控网络流量的方法》Linux中的nload命令是一个用于实时监控网络流量的工具,它提供了传入和传出流量的可视化表示,帮助用户一目了然地了解网络活动,本文给大家介绍了Linu... 目录简介安装示例用法基础用法指定网络接口限制显示特定流量类型指定刷新率设置流量速率的显示单位监控多个

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

C++ Primer 多维数组的使用

《C++Primer多维数组的使用》本文主要介绍了多维数组在C++语言中的定义、初始化、下标引用以及使用范围for语句处理多维数组的方法,具有一定的参考价值,感兴趣的可以了解一下... 目录多维数组多维数组的初始化多维数组的下标引用使用范围for语句处理多维数组指针和多维数组多维数组严格来说,C++语言没

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录