cuda专题

Ubuntu使用 NVIDIA GPU 和 CUDA 设置 LLM 的训练、微调和推理

0.引言 近年来,人工智能领域取得了令人瞩目的进步,其核心是图形处理单元(GPU)和并行计算平台的强大组合。 大模型如 GPT、BER能够理解和生成具有前所未有的流畅性和连贯性的类人文本。然而,训练这些模型需要大量的数据和计算资源,因此 GPU 和 CUDA 是这一努力中不可或缺的工具。 这个博客演示了在 Ubuntu 上设置 NVIDIA GPU 的过程,涵盖 NVIDIA 驱动程序、CUDA

[19] Opencv_CUDA应用之 基于形状的对象检测与跟踪

Opencv_CUDA应用之 基于形状的对象检测与跟踪 形状可以用作全局特征检测具有不同形状的物体,可以是直线、多边形、圆形或者任何其他不规则形状利用对象边界、边缘和轮廓可以检测具有特定形状的对象本文将使用Canny边缘检测算法和Hough变换来检测两个规则形状,即线和圆 1. Canny 边缘检测 Canny 结合了高斯滤波、梯度寻找、非极大值抑制和滞后阈值处理 高通滤波器对噪声非常敏

CUDA deviceQuery参数详解

运行sample里的deviceQuery: C:\ProgramData\NVIDIA Corporation\CUDA Samples\v8.0\1_Utilities\deviceQuery\../../bin/win64/Debug/deviceQuery.exe Starting...CUDA Device Query (Runtime API) version (CUDART st

C++ GPU编程(英伟达CUDA)

安装编译环境 https://developer.download.nvidia.com/compute/cuda/12.5.0/local_installers/cuda_12.5.0_555.85_windows.exe CMakeLists.txt cmake_minimum_required(VERSION 3.10)set(CMAKE_CXX_STANDARD 17)set(CMA

Ubuntu 20.04安装显卡驱动、CUDA和cuDNN(2024.06最新)

一、安装显卡驱动 1.1 查看显卡型号 lspci | grep -i nvidia 我们发现输出的信息中有Device 2230,可以根据这个信息查询显卡型号 查询网址:https://admin.pci-ids.ucw.cz/mods/PC/10de?action=help?help=pci 输入后点击Jump查询 我们发现显卡型号为RTX A6000

环境配置02:CUDA安装

1. CUDA安装 Nvidia官网下载对应版本CUDA Toolkit CUDA Toolkit 12.1 Downloads | NVIDIA Developer  CUDA Toolkit 12.5 Downloads | NVIDIA Developer 安装配置步骤参考:配置显卡cuda与配置pytorch - 知乎 (zhihu.com) 2. 根据CUDA版本,安装cud

python3.7的tensorflow-gpu2.0环境安装CUDA和cuddn,解决cudart64_101.dll not found问题

满心欢喜的以为用anaconda3 5.3.1装好了tensorflow-gpu 在vscode开用的时候,一盆冷水扑过来 PS D:\AI_program\yolo3-keras-master> E:\anaconda3\envs\tensorflow-gpu\python.exePython 3.7.0 (default, Jun 28 2018, 08:04:48) [MSC v.191

显卡nvidia的CUDA和cuDNN的安装

显卡版本,和nvidia下载的 CUDA版本和CUDNN的关系 1. 显卡版本 nvidia-smi 硬件环境:显卡版本 4090 + NVIDIA-SMI-555.85 我的驱动是510.85.02,驱动附带cuda=12.5  2. nvidia下载的cuda版本  nvcc -V 我下载的是cuda12.5 cuda在安装版本过程中需要确定安装版本!!! 在安

Visual Studio2022+cuda环境配置及代码调试

环境配置 下载并安装CUDA Toolkit 打开Visual Studio,新建项目。如下图所示,已经包含CUDA编程选项 代码调试 1、打开cu文件的属性页,按下图所示,将Host中的Generate Host Debug Information设置为“是" 2、不可勾选Nsight工具中的Break On Launch  经过以上两步的设置,即可使cu文件中函数内的断点生

编译 CUDA 程序的基本知识和步骤

基本工具 NVCC(NVIDIA CUDA Compiler): nvcc 是 NVIDIA 提供的 CUDA 编译器,用于将 CUDA 源代码(.cu 文件)编译成可执行文件或库。它可以处理 CUDA 和主机代码(例如 C++)的混合编译。nvcc 调用底层的主机编译器(如 gcc 或 clang)来编译非 CUDA 代码部分。 CUDA Toolkit: 包含 CUDA 编译器、库、开发

安装cuda、cudnn、Pytorch(用cuda和cudnn加速计算)

写在前面 最近几个月都在忙着毕业的事,好一阵子没写代码了。今天准备跑个demo,发现报错 AssertionError: Torch not compiled with CUDA enabled 不知道啥情况,因为之前有cuda环境,能用gpu加速,看这个报错信息应该是Pytorch下没有可用的cuda,不知道咋没了。因而决定从头开始配置一下环境,以此博文记录一下~ 安装cuda

CUDA以及NVCC编译流程

文章转载自: http://chenrudan.github.io/ 在安装CUDA的时候,会安装三个大的组件[1],分别是NVIDIA驱动、toolkit和samples。驱动用来控制gpu硬件,toolkit里面包括nvcc编译器、Nsight调试工具(支持Eclipse和VS,linux用cuda-gdb)、分析和调试工具和函数库。samples或者说SDK,里面包括很多样例程序包括查询

CUDA-GPU programming Introduction (4)

Concurrent execution and streams GPU和CPU之间的并行性是不言而喻的,各自的计算是asynchronous的,任何时候如果需要同步这两者,都需要用到: CudaDeviceSynchronize () 对于GPU和CPU之间的memory copy来说,小数据量传输默认是asynchronous,大数据量传输则是synchronous的。但是我们可以加上后

CUDA-GPU programming Introduction (3)

关于提高performance的一些建议: Important caveat:number of threads 并不是越多并行线程效率越高,因为每个线程都消耗一定的resource,主要是register和shared memory。所以开出再多的线程,GPU也只能在有限的资源下让一部分并行。优化应该根据资源需求。 unavoidable bottleneck: transfer b

CUDA-GPU programming Introduction (1)

基本定位: CPU的并行是对于多任务的同时进行,task parallelism, 力求minimize latency,而GPU的并行是对于单任务的数据并行,data parallelism, 力求maximize throughout。CPU的组成有相当的部分作为控制和调度,GPU则主要是计算单元的堆积,large scale SIMD (Single Instruction Multipl

cuda 11.2环境下TensorFlow 2.4.1出现libcusolver.so.10 not found问题记录

环境: RTX3090cuda11.2tensorflow 2.4.1Ubuntu 18.04 测试TensorFlow使用是否能够使用GPU import tensorflow as tftf.config.list_physical_devices('GPU') 出现libcusolver.so.10 not found 在tensorflow 的issues#43947发现解决方案

CUDA系列-Mem-9

这里写目录标题 Static Architecture.Abstractions provided by CUSW_UNIT_MEM_MANAGERMemory Object (CUmemobj) Memory Descriptor(CUmemdesc)Memory Block(CUmemblock)Memory BinsSuballocations in Memory BlockFunct

[14] CUDA_使用Opencv处理图像

CUDA_使用Opencv处理图像 1. Opencv中的图像表示 Opencv 提供了Mat 类来存储图像,如下: cv::Mat img;img=cv::imread("cameraman.tif); 定义图像的示例: //定义单通道图像cv::Mat img(6,6,CV_8UC1);//32位浮点型Mat img2(256,256,CV_32FC1);Mat img3

pip install 安装 torch cuda 11.8 cu118

默认安装,速度比较慢 pip install torch torchvision torchaudio  --extra-index-url https://download.pytorch.org/whl/cu118 百度了一下,有推荐这么改的,速度还是慢,因为还是转到官网 pytorch.org pip install torch torchvision torchaudio

如何解决 torch.cuda.is_available()是False

目录 1. 问题2. 解决方法2.1 安装torch的CUDA版本2.1.1 查看安装的torch是什么版本2.1.2 下载GPU版本的torch 2.2 安装 NVIDIA CUDA2.2.1 下载CUDA Toolkit2.2.2 安装CUDA Toolkit 最终效果 1. 问题 在Python中,使用Pytorch时,往往会选择使用CUDA模块,但import torc

CUDA 矩阵相乘

优化点: 1.block分成多个,可以不受图片大小的限制 (一个block内的线程数量有限) 2.每个block内使用shared momery 可以优化数据访问速度 const int TILE_WIDTH = 32;__global__ void mulKernel(int *c, uchar *a, uchar *b, int Width){__shared__ uchar M

cuda 与 opencl 的概念对应关系 备忘

OpenCL(Open Computing Language)和 CUDA(Compute Unified Device Architecture)都是用于并行编程的框架,允许开发者利用 GPU(以及其他处理器)进行高性能计算。尽管它们的目标相似,但它们由不同的组织开发,并在设计、语法和支持的硬件上有所不同。下面是一些 OpenCL 和 CUDA 概念的对应关系,帮助理解两者之间的相似性和差异:

Tensorflow-GPU CUDA cuDNN版本支持关系(windows)

数据来源:https://www.tensorflow.org/install/source VersionPython versionCompilerBuild toolscuDNNCUDAtensorflow_gpu-1.12.03.5-3.6MSVC 2015 update 3Bazel 0.15.079tensorflow_gpu-1.11.03.5-3.6MSVC 2015 updat

CUDA矩阵乘法

CUDA矩阵乘法 背景 大多数情况下,我们是不需要自己去实现矩阵乘法的,因为Nvidia提供了cuda版的cublas库,我们利用库函数就可以搞定。但是,总会有些情况下,我们需要实现自己的矩阵乘法。这里我们要实现的是自己的cublasSgemm函数。 cublasSgemm介绍 cublasSgemm函数的功能可以用如下的公式表示: α∗op(A)op(B)+β∗C,α和β是标量,

GPU高性能编程 CUDA实战 (二) CUDA C 简介

目标 编写第一段CUDA C代码了解主机(Host)端编写的代码和设备端(Device)编写的代码的区别如何从主机上运行设备端代码了解如何在支持CUDA的设备上使用内存了解如何查询系统中支持CUDA的设备信息 第一个CUDA C程序 CUDA C在很大程度上与标准C没有区别。在GPU上执行的函数通常称为核函数。 #include <iostream>__global__ void ker

GPU高性能编程 CUDA实战(一) 入门

目标 配置好编译CUDA C代码的环境 开发环境 前提条: 1. 支持CUDA的图形处理器 2. NVIDIA设备驱动程序 3. 标准C编译器 4. CUDA开发工具箱 -NIVIDIA设备驱动程序和工具箱 可以访问www.nvidia.com/cuda下载驱动程序和工具箱 下载完驱动程序和工具箱之后,按照提示步骤安装即可。 -标准C编译器 Windows上,推荐使用Vis