深度学习小目标检测问题——(转载)谈一谈深度学习之semantic Segmentation

本文主要是介绍深度学习小目标检测问题——(转载)谈一谈深度学习之semantic Segmentation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

https://www.cnblogs.com/daihengchen/p/6345041.html

上一次发博客已经是9月份的事了…这段时间公司的事实在是多,有写博客的时间都拿去看paper了…正好春节回来写点东西,也正好对这段时间做一个总结。

首先当然还是好好说点这段时间的主要工作:语义分割。semantic segmentation 应该是DL这几年快速发展的最重要的领域之一了,但可惜的事,在这方面大家走的并不是很远,还是有很多值得改进的地方,这当然是个很好的事情,特别是我这种想发paper弱渣…

语义分割做的是什么事呢? 就是给你一张图,你要对其中的每个pixel做分类,例如把所有的人都涂成红色,车都涂成蓝色。这是在机器人领域和自动驾驶中都非常重要的一步,因为我们开始让电脑真正的开始认识这个世界了。如下图所示:
在这里插入图片描述
在这里插入图片描述
semantic segmentation的转折点是从long的那那篇FCN开始的,之前的方法大多是用PGM建模的方法来做,原理都很清楚,但效果就是不好,因为难以解决的问题太多了。等DL大火之后,果然还是DL大法好,FCN这篇文章我之前是写过笔记的,那时候还比较年轻,现在再好好说一下。

这篇文章提出来的全卷积的概念并不新鲜, 也无怪乎lecun再FCN获得CVPR的best paper后吐槽了一发,但个人觉得现在DL领域,关键的不是谁提出了什么,而是谁做出了什么,谁做的更好,毕竟效果好才是王道。回到FCN,他的思路很简单,VGG最后的全联接层使得我们的输入只能是固定的,这个很不好,所以就用全卷积层来代替它,这样就可以任意输入了,全卷积层这里有个很多人都有的概念的疑惑,那就是为什么会有人说11的卷积就等价于全连接层呢?(而且还是lecun说的…)这事我也纠结过,我们很简单的理解,和全连接层等价的肯定是kernel和feature map一样大的卷积层,但lecun这么说是有语境的…因为在做全连接层之前,我们要把图像拉成一列,如114096这种,这样对他做11的卷积就等价于全连接层了…也算是我一个无聊的发现…

说说FCN的创新点和问题,最大的创新点就是skip connection了,这个trick到现在都是很不错的想法,不同level的feature map所提供的信息是不同的,所以在最后分类的时候都可以用到他们,semantic segmentation一直有一个trade-off,就是物体的边缘和物体整体的分类的正确性,high-level的feature能提供更细节的表现,low-level的feature侧重于于很大一块区域的准确性,传统解决这个问题的方法一般是两种:1.multi-scale的input。2.skip connection。   这方面最近有个叫refinenet的paper做的挺不错的,它用restnet的思想将网络分为两条路,一个负责location,一个负责refine,有兴趣可以去看看。 回到FCN的问题,也是我最想吐槽的一点…VGG的model时downsample 32倍的,所以FCN使用了原来classification一样的模型,所以在经过最后77点卷积之后,feature map就只有11点大小了…也就是说我们要从1*1点feature map上恢复到原图,虽然说它到channel很多,但毫无疑问,它提供的信息时严重不足的,这也无怪乎他得用skip connection了…这里要谈一谈downsample的问题,downsample太多的话会丢失原图的很多信息,毕竟我们是做pixel级别的分类,所以根据我的经验,一般是8倍或者16倍左右…

现在做semantatic segmentation 主要还是用的deeplab那一套,接下来我准备好好讲一下deeplab这一套方法…

deeplab那篇paper很推荐大家去看一下,他应该基本代表了现在semantic segmentation的state of art的流程了,我分几点说一下吧:

一、encoder层:

encoder层我的理解是把原图downsample的步骤,一般来说这一步使用的网络是和分类使用的一致的,分类的网络性能越强,最后大效果也就越好,所以现在普遍使用的是resnet(152),这里需要注意的问题就是,传统的classification下采样的倍数太大了,不利于分割,但是我们又不能不用pretrain-model,因为用了imagenet或者COCO的pretrain model,结果一定会涨。。而且收敛会快很多。这里通用的解决方法是用hole算法,其实说白了,就是使用dilated convlution,在卷积的时候,不是对一块连续的区域卷积,而是跳跃式的,如下图所示:  
 在这里插入图片描述
这样做的话有两个好处:

1.pretrain model可以用了,在需要downsample的地方,把所有的卷积变为一个dilation 2的卷积。

2.可以任意的提高感受野了,只要增加dilation即可,当然,有机会可以说一下,理论上的感受野不代表实际的感受野,因为会有很多的重合,所以理论感受野的中间会对最后的结果影响很大,而边缘地方影响很小,最近有篇paper也提到了这点,有时间放上链接吧。。。PS:因此在未来recepitive filed的研究上,我觉得好好解决这个问题是一个不错的思路。

二、decoder层:

和encoder层对应的自然就是decoder层,这个也很好理解,我们要对pixel做分类,自然就要把图像upsample到原图的大小(或者一半,然后再做biliner upsample),upsample的方法有几类,根据我的经验…都差不了多少,卷积+biliear或者卷积+反卷积或者卷积+unpooling,最后一个在deconvlution那篇paper出现的方法一度让我以为是通用的方法,直到发现大家开始抛弃pooling的downsample方法以后…不用pooling下采样很好理解,毕竟我们是做pixel级别的分类,所以还是用可学习的下采样,上采样的比较好。

另外,decoder层需要注意的事,实际上它并不需要和encoder层一样大,deconvlution那篇paper提出的对称结构确实优雅而且看起来就有理有据,但实际上并不是需要这么做的,enet的那篇paper对此做过说明,简单的理解就是:decoder实际上就是对feature map做一个upsample的refine,这个时候网络已经学习到了需要的东西了,毕竟我们并不是要去做一个autoencoder。。。

三、post-processing 后处理

后处理这个东西,其实有点小尴尬,作为刷榜的不二神器,他有两个问题:1.不符合现在很多人对end-to-end的迷之追求。2.太慢了,正常使用的dense crf会比神经网络慢很多,最后的实用场景基本不可能使用。

dense crf的调参也是我不能承受之痛…直到用了同事grid search的暴力调参大法,才结束我那段黑暗的日子…

不扯了,简单的说一下常见的后处理方法-CRF吧,crf作为经典的一个图模型,本来是semantic segmentation的主要方法,直到DL出现…最终沦为了后处理…DL+CRF有着天然的方便,为什么这么说了,CRF的优化是要有一个初始化的state的,也就是每个pixel的unary energy,如果只有label的方法等话,一般也就是用概率和置信度来暴力指定了,但其实神经网络的最后一层一般是softmax,所以我们完全可以用softmax的输出作为CRF中unary enargy的初始化,至于pair energy,还是常规的RGB像素值和XY location值了。

实际上,对于CRF大家是又爱又恨的,所以后面也出现了不少的改进方法,如CRF as RNN,CNN+LSTM这些,实际效果我没试过,但估计是呵呵了,比较期待的是北大的segmodel,看他们在cityscapes上的表现,感觉CVPR2017会有一个惊喜…

总结:

日常总结,segmentation是一个很不错的领域,但个人感觉大家主要还是在拼trick和调参技巧,这真是最没意思的行为了。但也很好,给了我们不少想象的空间,我最近的工作就是receptive filed 、side information上做点文章…希望可以出点东西吧。加油~

这篇关于深度学习小目标检测问题——(转载)谈一谈深度学习之semantic Segmentation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1057072

相关文章

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

oracle数据库索引失效的问题及解决

《oracle数据库索引失效的问题及解决》本文总结了在Oracle数据库中索引失效的一些常见场景,包括使用isnull、isnotnull、!=、、、函数处理、like前置%查询以及范围索引和等值索引... 目录oracle数据库索引失效问题场景环境索引失效情况及验证结论一结论二结论三结论四结论五总结ora

element-ui下拉输入框+resetFields无法回显的问题解决

《element-ui下拉输入框+resetFields无法回显的问题解决》本文主要介绍了在使用ElementUI的下拉输入框时,点击重置按钮后输入框无法回显数据的问题,具有一定的参考价值,感兴趣的... 目录描述原因问题重现解决方案方法一方法二总结描述第一次进入页面,不做任何操作,点击重置按钮,再进行下

解决mybatis-plus-boot-starter与mybatis-spring-boot-starter的错误问题

《解决mybatis-plus-boot-starter与mybatis-spring-boot-starter的错误问题》本文主要讲述了在使用MyBatis和MyBatis-Plus时遇到的绑定异常... 目录myBATis-plus-boot-starpythonter与mybatis-spring-b

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

mysql主从及遇到的问题解决

《mysql主从及遇到的问题解决》本文详细介绍了如何使用Docker配置MySQL主从复制,首先创建了两个文件夹并分别配置了`my.cnf`文件,通过执行脚本启动容器并配置好主从关系,文中还提到了一些... 目录mysql主从及遇到问题解决遇到的问题说明总结mysql主从及遇到问题解决1.基于mysql

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

如何测试计算机的内存是否存在问题? 判断电脑内存故障的多种方法

《如何测试计算机的内存是否存在问题?判断电脑内存故障的多种方法》内存是电脑中非常重要的组件之一,如果内存出现故障,可能会导致电脑出现各种问题,如蓝屏、死机、程序崩溃等,如何判断内存是否出现故障呢?下... 如果你的电脑是崩溃、冻结还是不稳定,那么它的内存可能有问题。要进行检查,你可以使用Windows 11

如何安装HWE内核? Ubuntu安装hwe内核解决硬件太新的问题

《如何安装HWE内核?Ubuntu安装hwe内核解决硬件太新的问题》今天的主角就是hwe内核(hardwareenablementkernel),一般安装的Ubuntu都是初始内核,不能很好地支... 对于追求系统稳定性,又想充分利用最新硬件特性的 Ubuntu 用户来说,HWEXBQgUbdlna(Har

MAVEN3.9.x中301问题及解决方法

《MAVEN3.9.x中301问题及解决方法》本文主要介绍了使用MAVEN3.9.x中301问题及解决方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录01、背景02、现象03、分析原因04、解决方案及验证05、结语本文主要是针对“构建加速”需求交