【并行计算】CUDA基础

2024-09-04 19:52
文章标签 基础 cuda 并行计算

本文主要是介绍【并行计算】CUDA基础,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

cuda程序的后缀:.cu

编译:nvcc hello_world.cu

执行:./hello_world.cu

使用语言还是C++。

1. 核函数

__global__ void add(int *a, int *b, int *c) {*c = *a + *b;
}

核函数只能访问GPU的内存。也就是显存。CPU的存储它是碰不到的。

并且核函数不能使用变长参数、静态变量、函数指针。

核函数具有异步性。GPU无法控制CPU,CPU也不会去等GPU,所以需要同步,也就是显式调用同步函数。有些线程也是需要同步的。

编写CUDA程序:

int main(void){主机代码核函数调用主机代码return 0;
}

核函数不支持C++的iostream。

#include<stdio.h>
__global__ void hello_from_gpu(){printf("Hello from GPU!\n");__syncthreads();// 显式同步
}
int main(){hello_from_gpu<<<1,1>>>();// 显式调用核函数cudaDeviceSynchronize();// 显式同步return 0;
}

2. 线程块

int main() {int a = 1;int b = 2;int c;add<<<1, 1>>>(&a, &b, &c);return 0;
}

线程模型重要概念:

  1. grid网格
  2. block线程块

线程分块是逻辑上的划分,物理上线程不分块。

配置线程:<<<grid_num, block_num>>>

第一个参数代表着我们有M个线程块,第二个参数代表着我们的每个线程块中有N个线程。他们都是一维的。这昂个参数保存在内建变量(build-in variable)中。

gridDim.x: 该变量的数值等于执行配置中变量grid_num的值。

blockDim.x: 该变量的数值等于执行配置中变量block_num的值。

最大允许线程块的大小为1024。最大允许的网格大小是 2 3 1 − 1 2^31-1 2311(针对一维网格)。

实际使用中,总线程数大于实际使用的线程数能更好地利用计算资源,因为这样可以使得GPU在计算的时候内存访问同时进行,节省计算机计算的时间。使得核心一直处于计算中。

启动核函数后,CPU并不会等待核函数执行完毕,立马去执行主机中其他程序。所以我们要做的就是使得这两部分时间重叠。

3. 线程块的索引

int main() {int a = 1;int b = 2;int c;add<<<1, 1>>>(&a, &b, &c);return 0;
}

线程索引保存成内s建变量(build-in variable):

  1. blockIdx.x: 该变量指定一个线程在一个网格中的线程块索引值,范围0-girdDim.x-1。
  2. threadIdx.x: 该变量指定一个线程在线程块中的索引值,范围0-blockDim.x-1。

线程具有唯一标识:

I d x = t h r e a d I d x . x + b l o c k D i m . x ∗ b l o c k I d x . x ; Idx = threadIdx.x + blockDim.x * blockIdx.x; Idx=threadIdx.x+blockDim.xblockIdx.x;

4. 推广到多维线程

  1. CUDA可以组织三维的网格和线程块;

  2. blockIdx和threadIdx是类型为uint3的变量,该类型是一个结构体,具有x,y,z三个成员(3个成员都为无符号类型的成员构成):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  1. 定义多维网格和线程块(C++构造函数语法):

dim3 grid_num(Gx,Gy,Gz);
dim3 block_num(Bx,By,Bz);

dim3 grid_num(2,2); // 等价于dim3 grid_num(2,2,1);
dim3 block_num(5,3); // 等价于dim3 block_num(5,3,1);

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

5. 一维网格 一维线程块

定义grid和block尺寸:

dim3 grid_num(4);
dim3 block_num(8);

调用核函数:

kernel_fun<<<grid_num, block_num>>>(…);

具体的线程索引方式如图所示。

blockIdx.x从0到3,threadIdx.x从0到7。

计算方式:

I d x = t h r e a d I d x . x + b l o c k D i m . x ∗ b l o c k I d x . x ; Idx = threadIdx.x + blockDim.x * blockIdx.x; Idx=threadIdx.x+blockDim.xblockIdx.x;

6. 二维网格 二维线程块

定义grid和block尺寸:

dim3 grid_num(2,2);
dim3 block_num(5,3);

调用核函数:

kernel_fun<<<grid_num, block_num>>>(…);

具体的线程索引方式如图所示。

blockIdx.x从0到1,threadIdx.y从0到1。

blockIdx.x从0到1,threadIdx.y从0到3。

计算方式:

i n t b l o c k I d = b l o c k I d x . x + g r i d D i m . x ∗ b l o c k I d x . y ; i n t t h r e a d I d = t h r e a d I d x . x + b l o c k D i m . x ∗ t h r e a d I d x . y ; i n t i d = b l o c k I d ∗ ( b l o c k D i m . x ∗ b l o c k D i m . y ) + t h r e a d I d ; int blockId = blockIdx.x + gridDim.x * blockIdx.y; int threadId = threadIdx.x + blockDim.x * threadIdx.y; int id = blockId * (blockDim.x * blockDim.y) + threadId; intblockId=blockIdx.x+gridDim.xblockIdx.y;intthreadId=threadIdx.x+blockDim.xthreadIdx.y;intid=blockId(blockDim.xblockDim.y)+threadId;

7. 三维网格 三维线程块

定义grid和block尺寸:

dim3 grid_num(2,2,2);
dim3 block_num(5,3,1);

调用核函数:

kernel_fun<<<grid_num, block_num>>>(…);

具体的线程索引方式如图所示。

blockIdx.x、blockIdx.y和blcokIdx.z从0到1,

threadIdx.x、threadIdx.y从0到3,threadIdx.z从0到1。

计算方式:

i n t b l o c k I d = b l o c k I d x . x + g r i d D i m . x ∗ b l o c k I d x . y + g r i d D i m . x ∗ g r i d D i m . y ∗ b l o c k I d x . z ; i n t t h r e a d I d = ( t h r e a d I d x . z ∗ ( b l o c k D i m . x ∗ b l o c k D i m . y ) ) + ( t h r e a d I d x . y ∗ b l o c k D i m . x ) + t h r e a d I d x . x ; i n t i d = b l o c k I d ∗ ( b l o c k D i m . x ∗ b l o c k D i m . y ∗ b l o c k D i m . z ) + t h r e a d I d ; int blockId = blockIdx.x + gridDim.x * blockIdx.y + gridDim.x * gridDim.y * blockIdx.z; int threadId= (threadIdx.z * (blockDim.x * blockDim.y) ) + (threadIdx.y * blockDim.x) + threadIdx.x; int id = blockId * (blockDim.x * blockDim.y * blockDim.z) + threadId; intblockId=blockIdx.x+gridDim.xblockIdx.y+gridDim.xgridDim.yblockIdx.z;intthreadId=(threadIdx.z(blockDim.xblockDim.y))+(threadIdx.yblockDim.x)+threadIdx.x;intid=blockId(blockDim.xblockDim.yblockDim.z)+threadId;

三维网格、三维线程块如图所示:

https://github.com/user-attachments/assets/c57924c1-2157-4c73-87ea-36f6842e9eff

Reference

[1]. 权双.CUDA编程基础入门系列(持续更新)[M/OL](2023-07-14)[2024-08-21].https://www.bilibili.com/video/BV1sM4y1x7of/?p=7&share_source=copy_web&vd_source=8b2bc57e71349607b55c9fde6b078ebd

这篇关于【并行计算】CUDA基础的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1136871

相关文章

从基础到进阶详解Pandas时间数据处理指南

《从基础到进阶详解Pandas时间数据处理指南》Pandas构建了完整的时间数据处理生态,核心由四个基础类构成,Timestamp,DatetimeIndex,Period和Timedelta,下面我... 目录1. 时间数据类型与基础操作1.1 核心时间对象体系1.2 时间数据生成技巧2. 时间索引与数据

安装centos8设置基础软件仓库时出错的解决方案

《安装centos8设置基础软件仓库时出错的解决方案》:本文主要介绍安装centos8设置基础软件仓库时出错的解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录安装Centos8设置基础软件仓库时出错版本 8版本 8.2.200android4版本 javas

Linux基础命令@grep、wc、管道符的使用详解

《Linux基础命令@grep、wc、管道符的使用详解》:本文主要介绍Linux基础命令@grep、wc、管道符的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录grep概念语法作用演示一演示二演示三,带选项 -nwc概念语法作用wc,不带选项-c,统计字节数-

python操作redis基础

《python操作redis基础》Redis(RemoteDictionaryServer)是一个开源的、基于内存的键值对(Key-Value)存储系统,它通常用作数据库、缓存和消息代理,这篇文章... 目录1. Redis 简介2. 前提条件3. 安装 python Redis 客户端库4. 连接到 Re

SpringBoot基础框架详解

《SpringBoot基础框架详解》SpringBoot开发目的是为了简化Spring应用的创建、运行、调试和部署等,使用SpringBoot可以不用或者只需要很少的Spring配置就可以让企业项目快... 目录SpringBoot基础 – 框架介绍1.SpringBoot介绍1.1 概述1.2 核心功能2

Spring Boot集成SLF4j从基础到高级实践(最新推荐)

《SpringBoot集成SLF4j从基础到高级实践(最新推荐)》SLF4j(SimpleLoggingFacadeforJava)是一个日志门面(Facade),不是具体的日志实现,这篇文章主要介... 目录一、日志框架概述与SLF4j简介1.1 为什么需要日志框架1.2 主流日志框架对比1.3 SLF4

Spring Boot集成Logback终极指南之从基础到高级配置实战指南

《SpringBoot集成Logback终极指南之从基础到高级配置实战指南》Logback是一个可靠、通用且快速的Java日志框架,作为Log4j的继承者,由Log4j创始人设计,:本文主要介绍... 目录一、Logback简介与Spring Boot集成基础1.1 Logback是什么?1.2 Sprin

MySQL复合查询从基础到多表关联与高级技巧全解析

《MySQL复合查询从基础到多表关联与高级技巧全解析》本文主要讲解了在MySQL中的复合查询,下面是关于本文章所需要数据的建表语句,感兴趣的朋友跟随小编一起看看吧... 目录前言:1.基本查询回顾:1.1.查询工资高于500或岗位为MANAGER的雇员,同时还要满足他们的姓名首字母为大写的J1.2.按照部门

Android Mainline基础简介

《AndroidMainline基础简介》AndroidMainline是通过模块化更新Android核心组件的框架,可能提高安全性,本文给大家介绍AndroidMainline基础简介,感兴趣的朋... 目录关键要点什么是 android Mainline?Android Mainline 的工作原理关键

mysql的基础语句和外键查询及其语句详解(推荐)

《mysql的基础语句和外键查询及其语句详解(推荐)》:本文主要介绍mysql的基础语句和外键查询及其语句详解(推荐),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋... 目录一、mysql 基础语句1. 数据库操作 创建数据库2. 表操作 创建表3. CRUD 操作二、外键