测试cuda trap指令在cuda-gdb下的行为

2024-08-23 21:52
文章标签 行为 指令 测试 gdb cuda trap

本文主要是介绍测试cuda trap指令在cuda-gdb下的行为,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

测试cuda trap指令在cuda-gdb下的行为

  • 1.测试小结
  • 2.测试步骤

本文测试cuda trap指令在cuda-gdb下的行为)

1.测试小结

  • cuda-gdb遇到trap指令后,当前的warp会停住
  • 运行continue后,可以继续运行下一条指令
  • 仅当前的warp会被停住,其它warp正常执行(通过cuda-gdb的代码行号以及kernel里的加时间戳可以判断)

2.测试步骤

tee trap_inst_benchmark.cu<<-'EOF'
#include <iostream>
#include <cuda_runtime.h>
#include <iostream>
#include <vector>
#include <stdio.h>
#include <assert.h>
#include <cstdio>
#include <cuda.h>__global__ void kernel(float *output_data,unsigned long long*output_ts,unsigned int*output_smid) {int tid  = threadIdx.x + blockIdx.x * blockDim.x;unsigned int smid;clock_t ts=clock64();asm volatile("mov.u32 %0, %smid;" : "=r"(smid));output_smid[tid]=smid;output_ts[tid]=ts;float val=tid;asm("st.global.wt.f32 [%0],%1;" :: "l"(&output_data[tid]),"f"(val));asm("discard.global.L2 [%0],128;" :: "l"(&output_data[tid]));asm("discard.global.L2 [%0],128;" :: "l"(&output_ts[tid]));unsigned int ts0;unsigned int ts1;asm volatile ("mov.u32 %0, %%clock;" : "=r"(ts0) :: "memory");  if(tid==15){      printf("trap in  tid:%d smid:%d ts:%ld\n",tid,smid,clock64());__trap();//assert(0);//__brkpt();//__trap();printf("trap out tid:%d smid:%d ts:%ld\n",tid,smid,clock64());}  asm volatile ("mov.u32 %0, %%clock;" : "=r"(ts1) :: "memory");printf("kernel smid:%d tid:%04d val:%6.2f ts:%ld\n",smid,tid,output_data[tid],ts1-ts0);
}#define CHECK_CUDA(call)                                           \do {                                                           \cudaError_t err = call;                                    \if (err != cudaSuccess) {                                  \std::cerr << "CUDA error at " << __FILE__ << ":" << __LINE__;  \std::cerr << " code=" << err << " (" << cudaGetErrorString(cudaGetLastError()) << ")" << std::endl; \}                                                          \} while (0)int main(int argc,char *argv[])
{int deviceid=0;cudaSetDevice(deviceid);  int block_size=1;int thread_block_size=32*4;int thread_size=thread_block_size*block_size;int data_size=sizeof(float)*thread_size;int ts_size=sizeof(unsigned long long)*thread_size;int smid_size=sizeof(int)*thread_size;float *dev_output_data=nullptr;unsigned long long* dev_output_ts=nullptr;unsigned int* dev_smid=nullptr;float *host_output_data=new float[thread_size];unsigned long long*host_output_ts=new unsigned long long[thread_size];;unsigned int* host_smid=new unsigned int[thread_size];CHECK_CUDA(cudaMalloc((void**)&dev_output_data, data_size));CHECK_CUDA(cudaMalloc((void**)&dev_output_ts, ts_size));CHECK_CUDA(cudaMalloc((void**)&dev_smid, smid_size));CHECK_CUDA(cudaMemcpy(dev_output_data,host_output_data,data_size,cudaMemcpyHostToDevice));CHECK_CUDA(cudaMemcpy(dev_output_ts,host_output_ts,ts_size,cudaMemcpyHostToDevice));CHECK_CUDA(cudaMemcpy(dev_smid,host_smid,smid_size,cudaMemcpyHostToDevice));printf("dev_output_data:%p\n",dev_output_data);printf("dev_output_ts:%p\n",dev_output_ts);printf("dev_smid:%p\n",dev_smid);kernel<<<block_size, thread_block_size>>>(dev_output_data,dev_output_ts,dev_smid);//如果Kernel里出现异常后,后面的CUDA API调用都会返回失败,自然也就得不到设备内存里的数据CHECK_CUDA(cudaDeviceSynchronize());CHECK_CUDA(cudaMemcpy(host_output_data,dev_output_data,data_size,cudaMemcpyDeviceToHost));CHECK_CUDA(cudaMemcpy(host_output_ts,dev_output_ts,ts_size,cudaMemcpyDeviceToHost));CHECK_CUDA(cudaMemcpy(host_smid,dev_smid,smid_size,cudaMemcpyDeviceToHost));for(int i=0;i<thread_size;i++){//  printf("tid:%04d smid:%08d val:%6.2f ts:%lld\n",i,host_smid[i],host_output_data[i],host_output_ts[i]);}CHECK_CUDA(cudaFree(dev_output_data));CHECK_CUDA(cudaFree(dev_output_ts));return 0;
}
EOF/usr/local/cuda/bin/nvcc -std=c++17 -arch=sm_86 -g -lineinfo -o trap_inst_benchmark trap_inst_benchmark.cu -I /usr/local/cuda/include -L /usr/local/cuda/lib64 -lcuda
/usr/local/cuda/bin/cuda-gdb ./trap_inst_benchmark

输出

kernel smid:0 tid:0116 val:116.00 ts:53
kernel smid:0 tid:0117 val:117.00 ts:53
kernel smid:0 tid:0118 val:118.00 ts:53
kernel smid:0 tid:0119 val:119.00 ts:53
kernel smid:0 tid:0120 val:120.00 ts:53
kernel smid:0 tid:0121 val:121.00 ts:53
kernel smid:0 tid:0122 val:122.00 ts:53
kernel smid:0 tid:0123 val:123.00 ts:53
kernel smid:0 tid:0124 val:124.00 ts:53
kernel smid:0 tid:0125 val:125.00 ts:53
kernel smid:0 tid:0126 val:126.00 ts:53
kernel smid:0 tid:0127 val:127.00 ts:53
trap out tid:15 smid:0 ts:3320272720798
kernel smid:0 tid:0000 val:  0.00 ts:28106907
kernel smid:0 tid:0001 val:  1.00 ts:28106907
kernel smid:0 tid:0002 val:  2.00 ts:28106907
kernel smid:0 tid:0003 val:  3.00 ts:28106907
kernel smid:0 tid:0004 val:  4.00 ts:28106907
kernel smid:0 tid:0005 val:  5.00 ts:28106907
kernel smid:0 tid:0006 val:  6.00 ts:28106907
kernel smid:0 tid:0007 val:  7.00 ts:28106907
kernel smid:0 tid:0008 val:  8.00 ts:28106907

这篇关于测试cuda trap指令在cuda-gdb下的行为的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1100593

相关文章

Nginx设置连接超时并进行测试的方法步骤

《Nginx设置连接超时并进行测试的方法步骤》在高并发场景下,如果客户端与服务器的连接长时间未响应,会占用大量的系统资源,影响其他正常请求的处理效率,为了解决这个问题,可以通过设置Nginx的连接... 目录设置连接超时目的操作步骤测试连接超时测试方法:总结:设置连接超时目的设置客户端与服务器之间的连接

如何测试计算机的内存是否存在问题? 判断电脑内存故障的多种方法

《如何测试计算机的内存是否存在问题?判断电脑内存故障的多种方法》内存是电脑中非常重要的组件之一,如果内存出现故障,可能会导致电脑出现各种问题,如蓝屏、死机、程序崩溃等,如何判断内存是否出现故障呢?下... 如果你的电脑是崩溃、冻结还是不稳定,那么它的内存可能有问题。要进行检查,你可以使用Windows 11

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

【测试】输入正确用户名和密码,点击登录没有响应的可能性原因

目录 一、前端问题 1. 界面交互问题 2. 输入数据校验问题 二、网络问题 1. 网络连接中断 2. 代理设置问题 三、后端问题 1. 服务器故障 2. 数据库问题 3. 权限问题: 四、其他问题 1. 缓存问题 2. 第三方服务问题 3. 配置问题 一、前端问题 1. 界面交互问题 登录按钮的点击事件未正确绑定,导致点击后无法触发登录操作。 页面可能存在

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

工作常用指令与快捷键

Git提交代码 git fetch  git add .  git commit -m “desc”  git pull  git push Git查看当前分支 git symbolic-ref --short -q HEAD Git创建新的分支并切换 git checkout -b XXXXXXXXXXXXXX git push origin XXXXXXXXXXXXXX

Verybot之OpenCV应用一:安装与图像采集测试

在Verybot上安装OpenCV是很简单的,只需要执行:         sudo apt-get update         sudo apt-get install libopencv-dev         sudo apt-get install python-opencv         下面就对安装好的OpenCV进行一下测试,编写一个通过USB摄像头采

Android中如何实现adb向应用发送特定指令并接收返回

1 ADB发送命令给应用 1.1 发送自定义广播给系统或应用 adb shell am broadcast 是 Android Debug Bridge (ADB) 中用于向 Android 系统发送广播的命令。通过这个命令,开发者可以发送自定义广播给系统或应用,触发应用中的广播接收器(BroadcastReceiver)。广播机制是 Android 的一种组件通信方式,应用可以监听广播来执行