本文主要是介绍CenterNet文字检测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
原文:CenterNet文字检测 - 知乎 (zhihu.com)
一、Anchor-Free模型
目前在目标识别模型中,无论是单阶段算法(如RetinaNet、SSD、YOLOV3)还是两阶段算法(如Faster RCNN),都依赖与预定义锚框(anchor box)来实现。
通过预定义锚框所实现的模型称为Anchor模型。相反,没有使用预定义锚框所实现的模型叫做Anchor-Free模型。
Anchor-Free模型在传统的目标识别模型基础上去掉了预定义的锚框,避免了锚框相关的复杂计算,使其在训练过程中不需要使用非极大值抑制算法。同时还减少了训练的内存,不需要设定锚框相关的超参数。
目前主流的Anchor-Free模型有FCOS模型、CornerNet-Lite模型、Fovea模型、CenterNet模型、DuBox模型。这些模型的思路大体相同,只是在具体处理的细节上略有差别,效果优于一般的基于锚框的单阶段检测模型。
注意:YOLOV1模型是一个比较早的Anchor-Free模型,模型在预测边框的过程中,使用了逐像素回归策略,即针对每个指定像素中心点进行边框预测。该方法的缺点是预测出的边框较少,它只能预测出目标物体中心点附近点的边界框,因此在YOLOV2、YOLOV3中都加入了Anchor策略。
二、CenterNet模型
CenterNet模型采用关键点估计方法来找到目标中心点,然后在中心点位置回归出目标的一些属性,如尺寸、三维位置、方向,甚至姿态。
CenterNet模型将目标检测问题变成标准的关键点估计问题。在具体的实现中,将图像传入骨干网络(可以是沙漏网络模型-Hourglass,残差网络模型-ResNet,带多级跳跃连接的图像分类网络模型-DLA)得到特征图,并将特征图矩阵中的元素作为检测目标的中心点,然后基于改中心点预测目标的宽高以及分类信息。该模型不仅可以用于目标检测,还可以在每个中心点输出3D目标框,多人姿态估计的结果。
1)对于3D BBox检测,直接回归得到目标的深度信息、3D框尺寸、目标朝向。
2)对于人体姿态估计,以2D关节位置作为中心点的偏移量,直接在中心点位置处回归出这些偏移量。
在训练阶段,CenterNet模型采用数据集的标注信息、目标物体的中心点坐标,目标尺寸和分类索引作为训练标签,采用高斯核函数和focal loss
这篇关于CenterNet文字检测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!