影印版专题

阅读 《大规模并行处理器程序设计》影印版心得 第六章 Performance Consideration

6.1 More on Thread Execution   warp的概念   warp是如何组织的:按x,y,z逐渐增大的方式来线性化多维方式组织的线程,然后从前往后,每32个线程为一个warp   The hardware executes an instruction for all threads in the same warp before moving to th

阅读 《大规模并行处理器程序设计》影印版心得 第五章 CUDA Memories

主要意图是:global memory太慢(几百个时钟周期),带宽太小。我们编程时,应该努力少用global memory,而更多使用shared memory和constant memory等快速memory     5.1 Importance of Memory Access Efficiency   CGMA 刻画做一次浮点运算需要做几次global memory访问,此值

阅读 《大规模并行处理器程序设计》影印版心得 第四章 CUDA Threads

4.1 CUDA  Thread Organization   具体例子:一个grid中有N个block,但是以一维的形式组织起来。每一个block中有M个线程,也以一维的形式组织起来。则任何一个block中的线程可以号可以用公式 threadID = blockIdx.x *blockDim.x +threadIdx.x来计算。   两个变量:gridDim和blockDim, g