CenterNet文字检测

2024-09-05 09:04

文章标签 文字检测 centernet

本文主要是介绍CenterNet文字检测，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

原文：CenterNet文字检测 - 知乎 (zhihu.com)

一、Anchor-Free模型

目前在目标识别模型中，无论是单阶段算法（如RetinaNet、SSD、YOLOV3）还是两阶段算法（如Faster RCNN），都依赖与预定义锚框（anchor box）来实现。

通过预定义锚框所实现的模型称为Anchor模型。相反，没有使用预定义锚框所实现的模型叫做Anchor-Free模型。

Anchor-Free模型在传统的目标识别模型基础上去掉了预定义的锚框，避免了锚框相关的复杂计算，使其在训练过程中不需要使用非极大值抑制算法。同时还减少了训练的内存，不需要设定锚框相关的超参数。

目前主流的Anchor-Free模型有FCOS模型、CornerNet-Lite模型、Fovea模型、CenterNet模型、DuBox模型。这些模型的思路大体相同，只是在具体处理的细节上略有差别，效果优于一般的基于锚框的单阶段检测模型。

注意：YOLOV1模型是一个比较早的Anchor-Free模型，模型在预测边框的过程中，使用了逐像素回归策略，即针对每个指定像素中心点进行边框预测。该方法的缺点是预测出的边框较少，它只能预测出目标物体中心点附近点的边界框，因此在YOLOV2、YOLOV3中都加入了Anchor策略。

二、CenterNet模型

CenterNet模型采用关键点估计方法来找到目标中心点，然后在中心点位置回归出目标的一些属性，如尺寸、三维位置、方向，甚至姿态。

CenterNet模型将目标检测问题变成标准的关键点估计问题。在具体的实现中，将图像传入骨干网络（可以是沙漏网络模型-Hourglass，残差网络模型-ResNet，带多级跳跃连接的图像分类网络模型-DLA）得到特征图，并将特征图矩阵中的元素作为检测目标的中心点，然后基于改中心点预测目标的宽高以及分类信息。该模型不仅可以用于目标检测，还可以在每个中心点输出3D目标框，多人姿态估计的结果。

1）对于3D BBox检测，直接回归得到目标的深度信息、3D框尺寸、目标朝向。

2）对于人体姿态估计，以2D关节位置作为中心点的偏移量，直接在中心点位置处回归出这些偏移量。

在训练阶段，CenterNet模型采用数据集的标注信息、目标物体的中心点坐标，目标尺寸和分类索引作为训练标签，采用高斯核函数和focal loss

这篇关于CenterNet文字检测的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！