【darknet】源码阅读理解(三)——CNN前向传播

2024-06-13 09:18

本文主要是介绍【darknet】源码阅读理解(三)——CNN前向传播,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这里以Code,原理相结合的方式

1. darknet中CNN关键代码

1. int m = l.n/l.groups;                               // 输出通道int k = l.size*l.size*l.c/l.groups;                 // img2col后图像矩阵的行数int n = l.out_w*l.out_h;                            // img2col后图像矩阵的列数for(i = 0; i < l.batch; ++i){                       // batch最外层循环, 一张图片一张图片的计算for(j = 0; j < l.groups; ++j){float *a = l.weights + j*l.nweights/l.groups;   // 卷积核的参数:fread(l.weights, sizeof(float), num, fp);float *b = net.workspace;float *c = l.output + (i*l.groups + j)*n*m;     // c作为单层layer的输出float *im =  net.input + (i*l.groups + j)*l.c/l.groups*l.h*l.w;     // net->input = input,就是图像数据if (l.size == 1) {b = im;} else {im2col_cpu(im, l.c/l.groups, l.h, l.w, l.size, l.stride, l.pad, b);     // b作为img2col的容器//img转成矩阵}gemm(0,0,m,n,k,1,a,k,b,n,1,c,n);                // c作为输出结果的容器,图像矩阵和卷积核矩阵的乘法,第一个conv为:32*27(卷积核)* 27*369664(图像)的矩阵乘法=32*369664}}2. 
void im2col_cpu(float* data_im,int channels,  int height,  int width,int ksize,  int stride, int pad, float* data_col) 
{int c,h,w;          //输入特征图转化得到的矩阵尺度 = (卷积组输入通道数*卷积核高*卷积核宽) * (卷积层输出单通道特征图高 * 卷积层输出单通道特征图宽)int height_col = (height + 2*pad - ksize) / stride + 1;         // 高度方向计算几次卷积int width_col = (width + 2*pad - ksize) / stride + 1;           // 宽度方向计算几次卷积int channels_col = channels * ksize * ksize;            // 输入矩阵展开//卷积核大小和通道数for (c = 0; c < channels_col; ++c) {                    // 输出为:(输入通道*kh*kw)*卷积滑动的次数//多通道img2col的第一行int w_offset = c % ksize;                           // 卷积核的索引            // 卷积核的宽度方向indexint h_offset = (c / ksize) % ksize;                 // 多通道img2col          // 卷积核的高度方向indexint c_im = c / ksize / ksize;                       // 图像上的第index个通道   // 卷积核的通道方向的indexfor (h = 0; h < height_col; ++h) {                  // 高度方向计算几次卷积  和卷积的计算方式,只是值相同,无任何相关意义for (w = 0; w < width_col; ++w) {               // 宽度方向计算几次卷积int im_row = h_offset + h * stride;         // 第几次卷积所需要的图像数据索引,行方向int im_col = w_offset + w * stride;         // 列方向int col_index = (c * height_col + h) * width_col + w;       // img2col之后,列项的索引data_col[col_index] = im2col_get_pixel(data_im, height, width, channels,im_row, im_col, c_im, pad);}}}
}3.
void gemm_nn(int M, int N, int K, float ALPHA, float *A, int lda,      // A卷积核32*27float *B, int ldb,      // B图像27*369664float *C, int ldc)      // C输出结果32*369664
{int i,j,k;#pragma omp parallel for                // 多线程,每次循环互不相干,循环中,不存在结果的相互依赖关系for(i = 0; i < M; ++i){for(k = 0; k < K; ++k){register float A_PART = ALPHA*A[i*lda+k];       // 声明寄存器变量,理论上可以提速,但是register * auto会比 auto*auto快吗?for(j = 0; j < N; ++j){                         // 常规数学中的矩阵乘法,for i:M; for j:N ; for k:KC[i*ldc+j] += A_PART*B[k*ldb+j];            // c(0,:) = a(0,0)*b(0,:)+a(0,1)*b(1,:)+...}                                               // 这里有依赖关系,有累加的,但是只是要总和,所以谁先计算都没有关系}}
}

2. 整体流程

  1. 辅助操作,计算一些参数
  2. img2col操作
  3. 矩阵乘法:卷积核矩阵*图像矩阵

3. img2col

img2col关键是根据卷积步长卷积核的尺寸将featuremap(3D)按原图的位置依次转化成 由多个宽为kkC_{k}的行向量(col),这些col拼成了特征图矩阵

3.1 原理

原图来自:https://www.dazhuanlan.com/2019/12/11/5df10f768c5da/

  • 单通道图像img2col
    在这里插入图片描述
  • 多通道图片img2col
    在这里插入图片描述
    输入特征图转化得到的矩阵尺度 = (卷积组输入通道数卷积核高卷积核宽) * (卷积层输出单通道特征图高 * 卷积层输出单通道特征图宽)

上面就是主要的原理。
darknet中代码的具体实现是按下图(来自here)来的:
在这里插入图片描述
Code

    for (c = 0; c < channels_col; ++c) {                    // 输出为:(输入通道*kh*kw)*卷积滑动的次数//多通道img2col的第一行int w_offset = c % ksize;                           // 卷积核的索引            // 卷积核的宽度方向indexint h_offset = (c / ksize) % ksize;                 // 多通道img2col          // 卷积核的高度方向indexint c_im = c / ksize / ksize;                       // 图像上的第index个通道   // 卷积核的通道方向的indexfor (h = 0; h < height_col; ++h) {                  // 高度方向计算几次卷积  和卷积的计算方式,只是值相同,无任何相关意义for (w = 0; w < width_col; ++w) {               // 宽度方向计算几次卷积int im_row = h_offset + h * stride;         // 第几次卷积所需要的图像数据索引,行方向int im_col = w_offset + w * stride;         // 列方向int col_index = (c * height_col + h) * width_col + w;       // img2col之后,列项的索引data_col[col_index] = im2col_get_pixel(data_im, height, width, channels,im_row, im_col, c_im, pad);}}}
  • 整个其实就是两个for循环,外层是img2col 输出feature的行数,内层的for h:height_col和for w:width_col其实就是输出featuer的列数
  • 这里通过输出feature的位置,反推到img上所需要的数据

3.2 卷积核转矩阵

将一个卷积核拉伸为一个横行,作为左乘矩阵:(为什么要拉伸为横行,在于对应的卷积区域拉伸为竖行,这样才能与之相对应,进行矩阵乘法)
在这里插入图片描述权值矩阵尺度 = (输出层通道数) * (卷积输入通道数卷积核高卷积核宽)

3.3 矩阵乘法

在这里插入图片描述
卷积层输出尺度 = (卷积层输出通道数) * (卷积层输出单通道特征图高 * 卷积层输出单通道特征图宽)

4. 矩阵乘法GEMM

Code

void gemm_nn(int M, int N, int K, float ALPHA, float *A, int lda,      // A卷积核32*27float *B, int ldb,      // B图像27*369664float *C, int ldc)      // C输出结果32*369664
{int i,j,k;#pragma omp parallel for                // 多线程,每次循环互不相干,循环中,不存在结果的相互依赖关系for(i = 0; i < M; ++i){for(k = 0; k < K; ++k){register float A_PART = ALPHA*A[i*lda+k];       // 声明寄存器变量,理论上可以提速,但是register * auto会比 auto*auto快吗?for(j = 0; j < N; ++j){                         // 常规数学中的矩阵乘法,for i:M; for j:N ; for k:KC[i*ldc+j] += A_PART*B[k*ldb+j];            // c(0,:) = a(0,0)*b(0,:)+a(0,1)*b(1,:)+...}                                               // 这里有依赖关系,有累加的,但是只是要总和,所以谁先计算都没有关系}}
}
  • 这里用#pragma omp parallel for实现多线程计算,后面有相互关系,但是只是要和,所以是没有关系的
  • 这里和高数中计算矩阵相乘的方式不同,高数中,应该是M,N是最外层循环
  • 引入了一个register变量,并将register变量和最大维度进行运算提高速度。
  • 这里#pragma omp parallel for多线程和for循环之间还有点问题

reference

  1. https://www.dazhuanlan.com/2019/12/11/5df10f768c5da/
  2. https://www.jianshu.com/p/4907e6c93452

这篇关于【darknet】源码阅读理解(三)——CNN前向传播的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1056890

相关文章

回调的简单理解

之前一直不太明白回调的用法,现在简单的理解下 就按这张slidingmenu来说,主界面为Activity界面,而旁边的菜单为fragment界面。1.现在通过主界面的slidingmenu按钮来点开旁边的菜单功能并且选中”区县“选项(到这里就可以理解为A类调用B类里面的c方法)。2.通过触发“区县”的选项使得主界面跳转到“区县”相关的新闻列表界面中(到这里就可以理解为B类调用A类中的d方法

springboot家政服务管理平台 LW +PPT+源码+讲解

3系统的可行性研究及需求分析 3.1可行性研究 3.1.1技术可行性分析 经过大学四年的学习,已经掌握了JAVA、Mysql数据库等方面的编程技巧和方法,对于这些技术该有的软硬件配置也是齐全的,能够满足开发的需要。 本家政服务管理平台采用的是Mysql作为数据库,可以绝对地保证用户数据的安全;可以与Mysql数据库进行无缝连接。 所以,家政服务管理平台在技术上是可以实施的。 3.1

人工智能机器学习算法总结神经网络算法(前向及反向传播)

1.定义,意义和优缺点 定义: 神经网络算法是一种模仿人类大脑神经元之间连接方式的机器学习算法。通过多层神经元的组合和激活函数的非线性转换,神经网络能够学习数据的特征和模式,实现对复杂数据的建模和预测。(我们可以借助人类的神经元模型来更好的帮助我们理解该算法的本质,不过这里需要说明的是,虽然名字是神经网络,并且结构等等也是借鉴了神经网络,但其原型以及算法本质上还和生物层面的神经网络运行原理存在

高仿精仿愤怒的小鸟android版游戏源码

这是一款很完美的高仿精仿愤怒的小鸟android版游戏源码,大家可以研究一下吧、 为了报复偷走鸟蛋的肥猪们,鸟儿以自己的身体为武器,仿佛炮弹一样去攻击肥猪们的堡垒。游戏是十分卡通的2D画面,看着愤怒的红色小鸟,奋不顾身的往绿色的肥猪的堡垒砸去,那种奇妙的感觉还真是令人感到很欢乐。而游戏的配乐同样充满了欢乐的感觉,轻松的节奏,欢快的风格。 源码下载

Spring中事务的传播机制

一、前言 首先事务传播机制解决了什么问题 Spring 事务传播机制是包含多个事务的方法在相互调用时,事务是如何在这些方法间传播的。 事务的传播级别有 7 个,支持当前事务的:REQUIRED、SUPPORTS、MANDATORY; 不支持当前事务的:REQUIRES_NEW、NOT_SUPPORTED、NEVER,以及嵌套事务 NESTED,其中 REQUIRED 是默认的事务传播级别。

[FPGA][基础模块]跨时钟域传播脉冲信号

clk_a 周期为10ns clk_b 周期为34ns 代码: module pulse(input clk_a,input clk_b,input signal_a,output reg signal_b);reg [4:0] signal_a_widen_maker = 0;reg signal_a_widen;always @(posedge clk_a)if(signal_a)

如何理解redis是单线程的

写在文章开头 在面试时我们经常会问到这样一道题 你刚刚说redis是单线程的,那你能不能告诉我它是如何基于单个线程完成指令接收与连接接入的? 这时候我们经常会得到沉默,所以对于这道题,笔者会直接通过3.0.0源码分析的角度来剖析一下redis单线程的设计与实现。 Hi,我是 sharkChili ,是个不断在硬核技术上作死的 java coder ,是 CSDN的博客专家 ,也是开源

基于Java医院药品交易系统详细设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W+,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码+数据库🌟 感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人  Java精品实战案例《600套》 2023-2025年最值得选择的Java毕业设计选题大全:1000个热

MySQL理解-下载-安装

MySQL理解: mysql:是一种关系型数据库管理系统。 下载: 进入官网MySQLhttps://www.mysql.com/  找到download 滑动到最下方:有一个开源社区版的链接地址: 然后就下载完成了 安装: 双击: 一直next 一直next这一步: 一直next到这里: 等待加载完成: 一直下一步到这里

PyTorch模型_trace实战:深入理解与应用

pytorch使用trace模型 1、使用trace生成torchscript模型2、使用trace的模型预测 1、使用trace生成torchscript模型 def save_trace(model, input, save_path):traced_script_model = torch.jit.trace(model, input)<