影印版专题

阅读《大规模并行处理器程序设计》影印版心得第六章 Performance Consideration

6.1 More on Thread Execution warp的概念 warp是如何组织的：按x,y,z逐渐增大的方式来线性化多维方式组织的线程，然后从前往后，每32个线程为一个warp The hardware executes an instruction for all threads in the same warp before moving to th

阅读《大规模并行处理器程序设计》影印版心得第五章 CUDA Memories

主要意图是：global memory太慢（几百个时钟周期），带宽太小。我们编程时，应该努力少用global memory，而更多使用shared memory和constant memory等快速memory 5.1 Importance of Memory Access Efficiency CGMA 刻画做一次浮点运算需要做几次global memory访问，此值

阅读《大规模并行处理器程序设计》影印版心得第四章 CUDA Threads

4.1 CUDA Thread Organization 具体例子：一个grid中有N个block，但是以一维的形式组织起来。每一个block中有M个线程，也以一维的形式组织起来。则任何一个block中的线程可以号可以用公式 threadID = blockIdx.x *blockDim.x +threadIdx.x来计算。两个变量：gridDim和blockDim, g