首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
影印版专题
阅读 《大规模并行处理器程序设计》影印版心得 第六章 Performance Consideration
6.1 More on Thread Execution warp的概念 warp是如何组织的:按x,y,z逐渐增大的方式来线性化多维方式组织的线程,然后从前往后,每32个线程为一个warp The hardware executes an instruction for all threads in the same warp before moving to th
阅读更多...
阅读 《大规模并行处理器程序设计》影印版心得 第五章 CUDA Memories
主要意图是:global memory太慢(几百个时钟周期),带宽太小。我们编程时,应该努力少用global memory,而更多使用shared memory和constant memory等快速memory 5.1 Importance of Memory Access Efficiency CGMA 刻画做一次浮点运算需要做几次global memory访问,此值
阅读更多...
阅读 《大规模并行处理器程序设计》影印版心得 第四章 CUDA Threads
4.1 CUDA Thread Organization 具体例子:一个grid中有N个block,但是以一维的形式组织起来。每一个block中有M个线程,也以一维的形式组织起来。则任何一个block中的线程可以号可以用公式 threadID = blockIdx.x *blockDim.x +threadIdx.x来计算。 两个变量:gridDim和blockDim, g
阅读更多...