本文主要是介绍实例分割文献阅读笔记(二)DCT-Mask,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
阅读 DCT-mask:离散余弦变换mask的实例分割表示
知乎讲解链接:论文分析
Abstracts
一个有代表性的实例化是mask R-CNN,predicts masks on a 28 × 28 binary grid。面对低分辨率不足和高分辨率过于复杂的问题,该文章提出了一个新的mask representation,是用DCT(discrete cosine transform)离散余弦变换将高分辨率的二进制网络掩码endoce成紧凑的向量,应用到大多数基于像素的实例分割方法中,且不需要预处理和预训练,对运行速度也没有影响。其主要优势在于it obtains a high-quality mask representation with low complexity
Introduction
主流的low-resolution grid可能已经不是很好的选择了。
Mask R-CNN是实例分割中一个代表性的实例化,是将二进制基真值下采样到28*28的网格然后通过上采样重建。运用reconstructed mask和ground truth之间的IoU度量来评价mask representation的质量。比起PCA,sparse coding,autoencoders,无需预处理和与训练,效率较高。
IOU的全称为交并比(Intersection over Union),是目标检测中使用的一个概念,IoU计算的是“预测的边框”和“真实的边框”的交叠率-,即它们的交集和并集的比值。最理想情况是完全重叠,即比值为1。
用到的数据集有:
COCO dataset
LVIS* dataset
Cityscapes
对比 ResNet-50网络结构
Method
实例分割中能使用DCT的原因:实例分割中的掩码是一幅二值图像,大部分信息都集中在少数几个低频分量上。通过将高分辨率的二进制掩码变换到变换到频域中,并保留其低频分量即可得到高质量且低复杂度的掩码表示,称其为DCT掩码表示。
添加
这篇关于实例分割文献阅读笔记(二)DCT-Mask的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!