卷积im2col函数

2023-11-07 05:59
文章标签 函数 卷积 im2col

本文主要是介绍卷积im2col函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、im2col函数

一个图像 input_num=1;
图像通道 input_channel=1;
图像高 input_h=4;
图像宽 input_w=4;
kernel高 kernel_h=3;
kernel宽 kernel_w=3;
stride=1;pad=0;
卷积后,输出图像的计算公式:
output_h=(input_h-kernel_h)/stride+1;
output_w=(input_w-kernel_w)/stride+1;

如下图,(注:图像中数据不代表图像的颜色数值)
在这里插入图片描述

原图(图a)按照从左到右、从上到下的过程,将(a)中大小为33(因为kernel大小为33)的矩阵拉成右图(图b)中的一列。具体过程如下图所示:
在这里插入图片描述

二:多通道的im2col
假设有三个通道(R、G、B)图像通道 input_channel=3;
在这里插入图片描述
图像在内存中的存储是:首先是连续存储第一通道的数据,然后再存储第二通道的数据,最后存储第三通道的数据。如下图:
在这里插入图片描述
多通道的im2col的过程如下图所示
在这里插入图片描述

内存中的存储是首先im2col第一通道,然后在im2col第二通道,最后im2col第三通道。各通道im2col的数据在内存中也是连续存储的。如下图:

在这里插入图片描述

三:kernel
图像的每个通道对应一个kernel通道,如下图(注:为计算简单,将kernel的值设置为1,同样此值不代表颜色数值。)
在这里插入图片描述

kernel的通道数据在内存中也是连续存储的。所以上面的kernel图像也可以表示为下图:
在这里插入图片描述

四:矩阵乘 sgemm
在caffe中图像与kernel的矩阵乘,是kernel*img。即:在矩阵乘法中
M=1 ,
N=output_h * output_w
K=input_channels * kernel_h * kernel_w

如下图所示:

在这里插入图片描述

图像数据是连续存储,因此输出图像也可以如下图所示【output_h * output_w】=【2*2】:
在这里插入图片描述
五:多通道图像输出
在caffe中图像与kernel的矩阵乘中:
M=output_channels ,
N=output_h * output_w
K=input_channels * kernel_h * kernel_w

如下图:
在这里插入图片描述
同样,多个输出通道图像的数据是连续存储,因此输出图像也可以如下图所示【output_channelsoutput_h * output_w】=【32*2】,
在这里插入图片描述

六、实现程序

#define _CRT_SECURE_NO_WARNINGS
#include<stdio.h>
#include<stdlib.h>
#include<string.h>int conv_out_height(h, pad, size, stride) {return (h + 2 * pad - size) / stride + 1;
}int conv_out_width(w, pad, size, stride) {return (w + 2 * pad - size) / stride + 1;
}int im2col_get_pixel(int *im, int height, int width, int channels,int row, int col, int channel, int pad)
{//去掉填充的边缘row -= pad;col -= pad;if (row < 0 || col < 0 ||row >= height || col >= width) return 0;//防止越界//根据channel定位通道,width*(row + height*channel)用来定位行,例如当channel=0时,代表输入图像的第一个通道,此时row表示了此通道图像的第row行,由于图像是用一维存放的,所以width*row则是使其指向了实际存放的那一行元素,图像然后通过col来定位列,即那一行元素的第几个,从而找到图像像素值;//而当channel=1时,代表了指向第二个通道图像,,row代表了此通道图像的第row行,由于图像是用一维存放的,所以width*(row + height)则是使其指向了实际存放的那一行元素,图像然后通过col来定位列,即那一行元素的第几个,从而找到图像像素值;感觉和上面一样有点啰嗦了;return im[col + width*(row + height*channel)];
}void im2col_cpu(int* data_im,int channels, int height, int width,int ksize, int stride, int pad, int* data_col)
{int c, h, w;//输出特征图的高宽int height_col = (height + 2 * pad - ksize) / stride + 1;int width_col = (width + 2 * pad - ksize) / stride + 1;//卷积核参数个数int channels_col = channels * ksize * ksize;//遍历所有的卷积核元素for (c = 0; c < channels_col; ++c) { 	//通过下面3个值可以定位到内存里的卷积核元素位置int w_offset = c % ksize;//卷积核横坐标w = c % 卷积核尺寸int h_offset = (c / ksize) % ksize;//卷积核纵坐标h = (c / 卷积核尺寸) % 卷积核尺寸int c_im = c / ksize / ksize;//卷积核通道c_im = c /卷积核尺寸 / 卷积核尺寸;也是其对应的输入图像通道,每个通道的卷积核只卷积对应通道的图像;//遍历的每个卷积核元素对应的图像像素值for (h = 0; h < height_col; ++h) {for (w = 0; w < width_col; ++w) {//表示第c_im个通道卷积核上坐标为(h_offset,w_offset)的元素对应第c_im个输入通道图像中元素的坐标(im_row,im_col);例如上图中第一个通道卷积核的第一个元素就对应了图像第一个输入通道上的(0,1,4,5)四个元素,四个坐标分别为输入图像第一个通道(c_im=0)时的(0,0),(0,1),(1,0),(1,1)int im_row = h_offset + h * stride;//每个卷积核元素对图像进行卷积时图像元素的行int im_col = w_offset + w * stride;//每个卷积核元素对图像进行卷积时图像元素的列//每个卷积核元素都会对应out_w*out_h个像素值,所以整个卷积核对应的像素数量应该为: //输出特征图高 x 输出特征图宽 x 卷积核尺寸x 卷积核尺寸 x卷积核通道//内存中的存储是首先im2col第一通道,然后在im2col第二通道,最后im2col第三通道。各通道im2col的数据在内存中也是连续存储的。//下面的目录col_index就是按照通道顺序存放的,先是存放第一的通道的卷积核的第一个元素所对应的图像像素,然后依次存放;接着放第二个通道的,最后放最后一个通道的;int col_index = (c * height_col + h) * width_col + w;//根据原始图像的坐标依次存放到内存中data_col[col_index] = im2col_get_pixel(data_im, height, width, channels,im_row, im_col, c_im, pad);}}}
}int main(int argc, char* argv[]) {int *data_im = NULL;int *data_col = NULL;int channels = 3, height = 4, width = 4;int ksize = 3, stride = 1, pad = 0;int out_w, out_h;int workspace_size;int inputs = height * width * channels;data_im = (int*)malloc(inputs * sizeof(int));if (!data_im) {printf("malloc error\n");exit(EXIT_FAILURE);}out_w = conv_out_width(width, pad, ksize, stride);out_h = conv_out_width(height, pad, ksize, stride);workspace_size = out_h * out_w * ksize * ksize * channels;data_col = (int*)malloc(workspace_size * sizeof(int));if (!data_col) {printf("malloc error\n");exit(EXIT_FAILURE);}//init imagefor (int i = 0; i<inputs; i++) data_im[i] = i;im2col_cpu(data_im, channels, height, width, ksize, stride, pad, data_col);printf("data_im:\n");for (int i = 0; i<inputs; i++) {printf("%-3d", data_im[i]);if( (i+1) % 4 == 0) printf("\n");}printf("\ndata_col:\n");for (int i = 0; i<workspace_size; i++) {printf("%-3d", data_col[i]);if( (i+1) % 4 == 0) printf("\n");}printf("\n");free(data_im);free(data_col);system("pause");exit(EXIT_SUCCESS);
}

这篇关于卷积im2col函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/361698

相关文章

Oracle的to_date()函数详解

《Oracle的to_date()函数详解》Oracle的to_date()函数用于日期格式转换,需要注意Oracle中不区分大小写的MM和mm格式代码,应使用mi代替分钟,此外,Oracle还支持毫... 目录oracle的to_date()函数一.在使用Oracle的to_date函数来做日期转换二.日

C++11的函数包装器std::function使用示例

《C++11的函数包装器std::function使用示例》C++11引入的std::function是最常用的函数包装器,它可以存储任何可调用对象并提供统一的调用接口,以下是关于函数包装器的详细讲解... 目录一、std::function 的基本用法1. 基本语法二、如何使用 std::function

hdu1171(母函数或多重背包)

题意:把物品分成两份,使得价值最接近 可以用背包,或者是母函数来解,母函数(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v) 其中指数为价值,每一项的数目为(该物品数+1)个 代码如下: #include<iostream>#include<algorithm>

C++操作符重载实例(独立函数)

C++操作符重载实例,我们把坐标值CVector的加法进行重载,计算c3=c1+c2时,也就是计算x3=x1+x2,y3=y1+y2,今天我们以独立函数的方式重载操作符+(加号),以下是C++代码: c1802.cpp源代码: D:\YcjWork\CppTour>vim c1802.cpp #include <iostream>using namespace std;/*** 以独立函数

函数式编程思想

我们经常会用到各种各样的编程思想,例如面向过程、面向对象。不过笔者在该博客简单介绍一下函数式编程思想. 如果对函数式编程思想进行概括,就是f(x) = na(x) , y=uf(x)…至于其他的编程思想,可能是y=a(x)+b(x)+c(x)…,也有可能是y=f(x)=f(x)/a + f(x)/b+f(x)/c… 面向过程的指令式编程 面向过程,简单理解就是y=a(x)+b(x)+c(x)

利用matlab bar函数绘制较为复杂的柱状图,并在图中进行适当标注

示例代码和结果如下:小疑问:如何自动选择合适的坐标位置对柱状图的数值大小进行标注?😂 clear; close all;x = 1:3;aa=[28.6321521955954 26.2453660695847 21.69102348512086.93747104431360 6.25442246899816 3.342835958564245.51365061796319 4.87

OpenCV结构分析与形状描述符(11)椭圆拟合函数fitEllipse()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C++11 算法描述 围绕一组2D点拟合一个椭圆。 该函数计算出一个椭圆,该椭圆在最小二乘意义上最好地拟合一组2D点。它返回一个内切椭圆的旋转矩形。使用了由[90]描述的第一个算法。开发者应该注意,由于数据点靠近包含的 Mat 元素的边界,返回的椭圆/旋转矩形数据

Unity3D 运动之Move函数和translate

CharacterController.Move 移动 function Move (motion : Vector3) : CollisionFlags Description描述 A more complex move function taking absolute movement deltas. 一个更加复杂的运动函数,每次都绝对运动。 Attempts to

✨机器学习笔记(二)—— 线性回归、代价函数、梯度下降

1️⃣线性回归(linear regression) f w , b ( x ) = w x + b f_{w,b}(x) = wx + b fw,b​(x)=wx+b 🎈A linear regression model predicting house prices: 如图是机器学习通过监督学习运用线性回归模型来预测房价的例子,当房屋大小为1250 f e e t 2 feet^

JavaSE(十三)——函数式编程(Lambda表达式、方法引用、Stream流)

函数式编程 函数式编程 是 Java 8 引入的一个重要特性,它允许开发者以函数作为一等公民(first-class citizens)的方式编程,即函数可以作为参数传递给其他函数,也可以作为返回值。 这极大地提高了代码的可读性、可维护性和复用性。函数式编程的核心概念包括高阶函数、Lambda 表达式、函数式接口、流(Streams)和 Optional 类等。 函数式编程的核心是Lambda