本文主要是介绍王小草【深度学习】笔记第四弹--卷积神经网络与迁移学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
标签(空格分隔): 王小草深度学习笔记
1. 图像识别与定位
图像的相关任务可以分成以下两大类和四小类:
图像识别,图像识别+定位,物体检测,图像分割。
图像的定位就是指在这个图片中不但识别出有只猫,还把猫在图片中的位置给精确地抠出来今天我们来讲一讲如何神经网络来做图像识别与定位。
图像的识别:
可以看成是图像的分类》C个类别
输入:整个图片
输出:类别标签(每个类别会有一个概率,选出概率最大的标签)
评估标准:准确率
图形的定位:
输入:整个图像
输出:物体边界框(x,y,w,h)。x,y是物体边界框的左上定点的横纵坐标;w,h是这个图片的长和高。通过这4个指标就可以定位出图中的物体的位置。
评估标准:交并准则
所以图像的识别与定位就是以上两个任务组成。
下面介绍2中思路去实现图像的识别与定位。
1.1 思路1:视作回归
对于图像定位来说只要求出了(x,y,w,h)这四个值就得到了定位,因为这四个值是连续性,所以不能用分类的方法来做,这里考虑用回归来做。
与之前分类问题不同的是,现在我们使用L2loss也就是欧氏距离来求损失函数。
步骤1:
首先得搭一个图像识别的神经网络,可以在VGG,GoogleLenet这些优秀的模型上fine-tuning一下。
步骤2:
接下来在上述神经网络的尾部展开成两个部分:成为classification + regression的模式。前者是为了识别,后者是为了定位。一般这个展开会放在卷积层后面,也有时候放在全连接层后面。
步骤3:
在regression回归部分使用欧氏距离计算损失,然后运用SGD来训练,在classification部分和以前一样不变。
步骤4:
在预测阶段,将classification和regression两个模块拼上,让他们各自去实现自己不同的功能。
regression模块加在什么位置呢?
可以放在卷积层后,如VGG
也可以放在全连接层后, 如DeepPose
这篇关于王小草【深度学习】笔记第四弹--卷积神经网络与迁移学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!