NVIDIA CUDA初级教程(P5-P10)GPU体系架构和CUDA/GPU编程模型

2023-10-21 21:50

本文主要是介绍NVIDIA CUDA初级教程(P5-P10)GPU体系架构和CUDA/GPU编程模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 1.GPU体系架构
    • 2.CUDA/GPU 编程模型
    • 3.Linux下CUDA程序分析和调试工具

1.GPU体系架构

为什么需要GPU?

  • 应用的需求越来越高
  • 计算机技术由应用驱动(Application Driven)

GPU(Graphic Processing Unit)

  • GPU是一个异构的多处理器芯片,为图形图像处理优化
  • CPU类型的存储器架构
    在这里插入图片描述
  • GPU类型的存储器架构
    在这里插入图片描述

2.CUDA/GPU 编程模型

CPU-GPU交互

  • 各自的物理内存空间
  • 通过PCIE总线互连(8GB/s~16GB/s)
  • 交互开销较大
    在这里插入图片描述

GPU线程组织模型

  • 一个Kernel具有大量线程
  • 线程被划分成线程块‘blocks’
    (1) 一个block内部的线程共享 ‘Shared Memory’
    (2)可以同步 ‘_syncthreads()’
  • Kernel启动一个‘grid’,包含若干线程块
    (1)用户设定
  • 线程和线程块具有唯一的标识
    在这里插入图片描述
    GPU内存模型
    在这里插入图片描述
    GPU内存和线程之间的关系
    在这里插入图片描述

GPU应用

  • 常规意义的GPU用于处理图形图像,操作于像素,每个像素的操作都类似
  • 还可以应用SIMD (single instruction multiple data),也可以认为是数据并行分割
    在这里插入图片描述
  • Single Instruction Multiple Thread (SIMT)
    GPU版本的 SIMD;
    大量线程模型获得高度并行;
    线程切换获得延迟掩藏;
    多个线程执行相同指令流;
    GPU上大量线程承载和调度;

CUDA编程模式:Extended C

  • CUDA 函数声明
    在这里插入图片描述
    (1)__global__ 定义一个 kernel 函数
    入口函数,CPU上调用,GPU上执行
    必须返回void
    (2) __device__ 和 __host__ 可以同时使用
    (3)Global和device函数:尽量少用递归、不使用静态变量、少用malloc(现在允许但不鼓励)、小心通过指针实现的函数调用

  • eg:
    在这里插入图片描述

CUDA术语

  • Host – 即主机端 通常指 CPU
    采用ANSI标准C语言编程

  • Device – 即设备端 通常指 GPU (数据可并行)
    采用ANSI标准C的扩展语言编程

  • Host 和 Device 拥有各自的存储器

  • CUDA 编程
    包括主机端和设备端两部分代码

  • Kernel核函数:数据并行处理函数
    通过调用kernel函数在设备端创建轻量级线程;
    线程由硬件负责创建并调度;

线程层次Thread Hierarchies

  • CUDA 核函数(Kernels)
    在N个不同的CUDA线程上并行执行
    在这里插入图片描述

  • CUDA 程序的执行
    在这里插入图片描述

  • Grid – 一维或多维线程块(block),多个线程块
    一维 二维 或 三维;
    在这里插入图片描述

  • Block:一组线程,线程块
    一维,二维或三维,例如: 索引数组,矩阵,体;
    一个Grid里面的每个Block的线程数是一样的;
    block内部的每个线程可以:同步 synchronize、访问共享存储器 shared memory;不同块的两个线程不能通信;
    在这里插入图片描述

Thread ID: Scalar thread identifier

  • 线程索引: threadIdx
  • 一维Block: Thread ID == Thread Index
  • 二维Block (Dx, Dy)
    Thread ID of index (x, y) == x + y D y D_y Dy
  • 三维Block (Dx, Dy, Dz)
    Thread ID of index (x, y, z) == x + y D y D_y Dy + z D x D_x Dx D y D_y Dy
  • eg:
    在这里插入图片描述

Thread Block线程块

  • 线程的集合
  • 位于相同的处理器核心(SM)
  • 共享所在核心的存储器
  • 块索引: blockIdx
    维度: blockDim, 一维或二维或三维
    在这里插入图片描述
  • 线程块之间彼此独立执行
    任意顺序: 并行或串行
    被任意数量的处理器以任意顺序调度
    处理器的数量具有可扩展性
    在这里插入图片描述

一个块内部的线程

  • 共享容量有限的低延迟存储器
  • 同步执行
    (1)合并访存
    (2)__syncThreads()
    Barrier – 块内线程一起等待所有线程执行到某处语句
    轻量级
    在这里插入图片描述
  • eg:
通过grid和block坐标计算线程id
int threadID=blockIdx.x * blockDim.x + threadIdx.x;用线程id从输入读入元素
float x=input[threadID];在输入数据上执行函数,数据可并行
float y= func(x);output[threadID] = y;

CUDA 内存传输

  • 寄存器Registers
    (1)每个线程专用
    (2)快速、片上、可读写
    (3)eg:G80每个SM有769个线程,8K个寄存器、则每个线程可以分别有8K/768线程=10寄存器/线程
  • 局部存储器Local Memory
    (1)存储于global memory,作用于每个thread
    (2)用于存储自动变量数组,通过常量索引访问
  • 共享存储器shared Memory
    (1)每个块
    (2)快速、片上、可读写
    (3)全速随机访问
  • eg:G80的共享存储器的每个SM包含8个blocks,16KB共享存储、所以每个block可以分配16KB/8=2KB/block
  • 全局存储器Global memory
    (1)长延时(100个周期)
    (2)片外、可读写
    (3)随机访问影响性能
  • 常量存储器Constant Memoy
    (1)短延时、带宽高、当所有线程访问同一位置时只读
    (2)存储于global memory但是有缓存
    (3)Host主机端可读写
    (4)容量64KB
    在这里插入图片描述
  • Global and constant变量
    在这里插入图片描述
Host可以通过以下函数访问
cudaGetSymbolAddress();
cudaGetSymbolSize();
cudaMemcpyToSymbol();
cudaMemcpyFromSymbol();constants变量必须在函数外声明
  • 设备端代码
    (1)R/W per-thread registers
    (2)R/W per-thread local memory
    (3)R/W per-block shared memory
    (4)R/W per-grid global memory
    (5)read only per-grid constant memory

  • 主机端代码
    R/W per-grid global and constant memory;
    主机端读写global memory和constant memory

  • Host 可以从 device 往返传输数据
    (1)Global memory全局存储器
    (2)Constant memory常量存储器

在设备端分配 global memory
cudaMalloc()
释放存储空间
cudaFree()float* Md;
int size=width*width*sizeof(float);
//Md:Pointer to device memory
//size:size in bytes
cudaMalloc((void**)&Md, size);
cudaFree(Md);内存传输
cudaMemcpy()
Host to host
Host to device
Device to host
Device to device//host to device
//cudaMemcpy(Destination,Source,XX,XX)
cudaMemcpy(Md,M,size,cudaMemcpyHostToDevice);
cudaMemcpy(Md,M,size,cudaMemcpyDeviceToHost);
  • eg:Matrix Multiply 矩阵相乘算法
    (1)P = M * N
    (2)假定 M and N 是方阵
    (3)1,000 x 1,000矩阵:1,000,000 点乘,Each 1,000 multiples and 1,000 adds
    在这里插入图片描述
Matrix Multiply: CPU 实现void MatrixMulOnHost(float* M, float* N, float* P, int width){for (int i = 0; i < width; ++i)for (int j = 0; j < width; ++j){float sum = 0;for (int k = 0; k < width; ++k){//二维数组的一维表示形式float a = M[i * width + k];float b = N[k * width + j];sum += a * b;}P[i * width + j] = sum;}
}
Matrix Multiply: CUDA C 实现
第1:在算法框架中添加 CUDA memory transfers
#include "cuda.h"
void MatrixMulOnDevice(float* M,float* N, float* P,int Width)
{int size=Width*Width*sizeof(float);//分配输入:Load M and N to device memorycudaMalloc(Md,size);cudaMemcpy(Md,M,size,cudaMemcpyHostToDevice);cudaMalloc(Nd,size);cudaMemcpy(Nd,N,size,cudaMemcpyHostToDevice);//分配输出:Allocate P on the devicecudaMalloc(Pd,size);//Kernel invocation code//从device读回:Read P from the devicecudaMemcpy(P,Pd,size,cudaMemcpyDeviceToHost);//Free device matricescudaFree(Md);cudaFree(Nd);cudaFree(Pd);
}2:CUDA C编程实现 kernel
//Matrix multiplication kernel-thread specification
__global__ void MatrixMulKernel(float* Md, float* Nd, float* Pd, int Width)
{//2D Thread ID//每个线程可以处理结果矩阵的一个元素,x,y表示结果矩阵的下标//访问一个matrix,所以采用二维blockint tx=threadIdx.x;int ty=threadIdx.y;//每个kernel线程计算一个输出:Pvalue stores the Pd element that is computed by thr threadfloat Pvalue=0;for (int k=0;k<Width;++k){float Mdelement=Md[ty*Md.width+k];float Ndelement=Md[k*Md.width+tx];Pvalue += Mdelement*Ndelement;}//每个结果矩阵里面的元素是独立的//Write the matrix to device memory each thread writes one elementPd[ty*Width+tx]=Pvalue ;
}3:CUDA C编程调用 kernel
//Setup the execution configuration
dim3 dimBlock(WIDTH,WIDTH);//一个block含有widyh*width个线程
dim3 dimGrid(1,1);//Launch the device computation threads!
//<<<dimBlock,dimGrid>>>代表配置参数
MatrixMulKernel<<<dimBlock,dimGrid>>>(Md,Nd,Pd);

Matrix Multiply: CUDA C 实现解释

  • 一个线程block计算Pd
    每个线程计算Pd的一个元素
  • 每个线程
    读入矩阵Md的一行
    读入矩阵Nd的一列
    为每对Md和Nd元素执行一次乘法和加法
  • (not very high) 计算次数和片外访存次数比率接近1:1(不是很高,读一次数据做一次乘累加)
  • 矩阵的长度受限于一个线程块允许的线程数目(一个线程处理一个元素)
    在这里插入图片描述

问题

  • 矩阵长度限制
    仅用一个block
    G80 和 GT200 – 最多512 个线程/block
    解决办法:去除长度限制,目的是适应更大的矩阵
    将Pd 矩阵拆成tile小块,把一个tile 布置到一个block,通过 threadIdx 和blockIdx索引
    在这里插入图片描述
    将Pd矩阵拆分为4个block
    矩阵: 4x4
    TILE_WIDTH = 2
    Block 尺寸: 2x2
    在这里插入图片描述
    在这里插入图片描述
__global__ void MatrixMulKernel(float* Md, float* Nd, float* Pd, int Width)
{//计算矩阵Pd 和M的行索引int Row = blockIdx.y * blockDim.y + threadIdx.y;//计算矩阵Pd 和N的列索引int Col = blockIdx.x * blockDim.x + threadIdx.x;float Pvalue = 0;//每个线程计算块内子矩阵的一个元素for (int k = 0; k < Width; ++k)Pvalue += Md[Row * Width + k] * Nd[k * Width +Col];Pd[Row * Width + Col] = Pvalue;
}调用 kernel:
//dim3 表示三维类型
//Width / TILE_WIDTH宽度方向上有多少block
//Height / TILE_WIDTH高度方向上有多少block
dim3 dimGrid(Width / TILE_WIDTH, Height / TILE_WIDTH);//需要多少block
dim3 dimBlock(TILE_WIDTH, TILE_WIDTH);//每个block的大小
//Grid维度表示有多少block,Block表示有多少线程
MatrixMulKernel<<<dimGrid, dimBlock>>>(Md, Nd, Pd, TILE_WIDTH);

向量数据类型

  • 同时适用于host和device代码
char[1-4],uchar[1-4]
short[1-4],ushort[1-4]
int[1-4],uint[1-4]
long[1-4],ulong[1-4]
longlong[1-4],ulonglong[1-4]
float[1-4]
double1,double2
  • 通过函数make_构造,eg:
int2 i2=make_int2(1,2);
float4 f4=make_float4(1.0f,2.0f,3.0f,4.0f);
  • 通过.x,.y,.z,and .w访问
int2 i2=make_int2(1,2);
int x=i2.x;
int y=i2.y;
  • 数学函数
部分函数列表:
sqrt、rsqrt、exp、log、sin、cos、tan、sincos、asin、acos、atan2、trunc、ceil、floor
  • Instrinsic function内建函数
    仅面向Device设备端;
    更快,但精度降低;
    以__为前缀,eg:__exp,__log,__sin,__pow

线程同步

  • 块内线程可以同步
  • 调用__syncthreads创建一个barrier栅栏
  • 每个线程在调用点等待块内所有线程执行到这个地方,然后所有线程继续执行后续指令
  • eg:
Mds[i]=Md[j];
__syncthreads();
func(Mds[i], Mds[i+1]);
  • 同步流程可以参考如下
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 线程同步__syncthreads()会导致线程暂停吗?
    会,下面是逻辑错误,可能会导致死锁
if (someFunc())
{__syncthreads();
}
else
{__syncthreads();
}
  • 线程调度中SP和SM的区别
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • Warp:块内的一组线程
    (1)运行于同一个SM
    (2)线程调度的基本单位
    (3)threadIdx值连续
    (4)若warp内部线程沿着不同分支执行,可能会产生Divergent线程束分化
    (5)若一个SM分配了3个block,其中每个block含有256个线程,总共有多少warp?
    假设一个block有32个warp,256/32*3=24;
    (6)GT200的一个SM最多可以驻扎1024个线程,那相当于多少个warp?
    1024/32=32;
    (7)每个warp含有32个线程,但是每个SM只有只有8个SPs(这里假设一个SP只允许一个线程),如何分配?
    当一个SM调度一个warp时,指令已经准备好了;
    在第一个周期,8个线程进入SPs;
    在第二、三、四个周期,各进入8个线程;
    so,分发一个warp需要4个周期

读写global memory的优化

  • 原因:
    G80 峰值GFLOPS: 346.5(每个浮点数是4个字节),意味着需要 1386 GB/s 的带宽来达到(346.5*4)
    G80 存储器实际带宽: 86.4 GB/s,限制代码 21.6 GFLOPS;
    实际上,代码运行速度是 15 GFLOPS
    所以必须大幅减少对 global memory 的访问

  • 每个输入元素被Width 个线程读取
    使用 shared memory 来减少global memory 带宽需求
    做法:把 kernel 拆分成多个阶段,每个阶段用 Md 和 Nd 的子集累加Pd,每个阶段有很好的数据局部性
    每个线程:读入瓦片TILE内 Md 和 Nd 的一个元素存入 shared memory
    在这里插入图片描述

__global__ void MatrixMulKernel(float* Md, float* Nd, float* Pd, int Width)
{//Shared memory 存储Md 和 Nd 的子集__shared__ float Mds[TILE_WIDTH][TILE_WIDTH];__shared__ float Nds[TILE_WIDTH][TILE_WIDTH];int bx = blockIdx.x; int by = blockIdx.y;int tx = threadIdx.x; int ty = threadIdx.y;int Row = by * TILE_WIDTH + ty;int Col = bx * TILE_WIDTH + tx;float Pvalue = 0;//Width/TILE_WIDTH//阶段数目m//当前阶段的索引for (int m = 0; m < Width/TILE_WIDTH; ++m) {//从Md 和 Nd 各取一个元素存入 shared memoryMds[ty][tx] = Md[Row*Width + (m*TILE_WIDTH + tx)];Nds[ty][tx] = Nd[Col + (m*TILE_WIDTH + ty)*Width];//等待block内所有线程, 即等到整个瓦片存入 shared memory__syncthreads();//累加点乘的子集for (int k = 0; k < TILE_WIDTH; ++k)Pvalue += Mds[ty][k] * Nds[k][tx];__synchthreads();}//把最终结果写入global memoryPd[Row*Width+Col] = Pvalue;
}

如何选取 TILE_WIDTH的数值?

  • eg:G80: 16KB / SM 并且 8 blocks / SM,所以:2 KB / block(每个block占用2KBshared memory),所以1 KB 给 Nds ,1 KB 给 Mds (1024/4=256,256=16*16,16 * 16 * 4),所以TILE_WIDTH = 16
    注意: 更大的 TILE_WIDTH 将导致更少的块数
  • Shared memory 瓦片化的好处
    (1)global memory 访问次数减少TILE_WIDTH倍,16x16 瓦片 减少16倍
    (2)所以,现在的global memory 支持 345.6 GFLOPS(20*16,其中20来自上述的G80 存储器实际带宽: 86.4 GB/s,限制代码 21.6 GFLOPS;)
  • 每个 thread block有多少个线程?
    TILE_WIDTH 为 16 时(16*16 Pd): 16*16 = 256 个线程,即1个block有256个线程;
    若一个 1024*1024 Pd矩阵需要多少block: 64*64 = 4K Thread Blocks(因为32*32=1024不够矩阵大小)

Atomic Functions原子函数

  • 尽量少用原子操作
  • 对同一个内存地址做了add,那么其余线程都会去排队
// 算术运算 // 位运算
atomicAdd() 
atomicSub() 
atomicExch() 
atomicMin()
atomicMax()
atomicAdd()
atomicDec()
atomicCAS()atomicAnd()
atomicOr()
atomicXor()

3.Linux下CUDA程序分析和调试工具

LInux程序开发环境

  • CUDA5.5有nsight环境

  • 一个显卡用来显示,一个显卡用来计算
    在这里插入图片描述

  • nsight开发测试
    在这里插入图片描述
    只用K5000
    在这里插入图片描述
    源码添加
    在这里插入图片描述

  • CUDA gdb

nvcc -g -G myXX.cucuda-gdb a.out
help cuda
cuda thread (2,0,0)多余的GPU 需要关掉

这篇关于NVIDIA CUDA初级教程(P5-P10)GPU体系架构和CUDA/GPU编程模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/257211

相关文章

mybatis的整体架构

mybatis的整体架构分为三层: 1.基础支持层 该层包括:数据源模块、事务管理模块、缓存模块、Binding模块、反射模块、类型转换模块、日志模块、资源加载模块、解析器模块 2.核心处理层 该层包括:配置解析、参数映射、SQL解析、SQL执行、结果集映射、插件 3.接口层 该层包括:SqlSession 基础支持层 该层保护mybatis的基础模块,它们为核心处理层提供了良好的支撑。

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费