fots专题

FOTS端到端OCR论文阅读

3.2 文字识别部分 采用RoIRotate将文字区域输出为固定高度,不同长度的图片,并保持长宽比不变。示意图如下: 同时这里采用的是双线性插值方式实现的(有点像roi align)。 同时论文提到将特征映射填充到最大宽度,在损失函数中忽略填充部分。 此外,不像图像分类,文字识别对检测结果非常敏感,一点的检测误差就会切掉几个像素,这对识别网络是非常有害的。所以训练的时候用的是标注数据

FOTS: Fast Oriented Text Spotting with a Unified Network-译文

摘要 偶然场景文本定位被认为是文献分析社区中最难最具挑战性的任务之一。大多数存在的方法将文本检测和识别看作分开的任务。在本文工作中,我们提出了一个统一的端对端训练的快速多方向文本定位网络同时检测和识别,在两个任务中共享计算和视觉信息。特殊的,引入RoIRotate来在检测和识别之间共享卷积特征。受益于卷积共享策略,我们的FOTS几乎没有比基础文本检测网络增加计算量,联合训练方法学习更通用的特征使

翻译和笔记--FOTS: Fast Oriented Text Spotting with a Unified Network

文章目录 笔记1.FOTS: Fast Oriented Text Spotting with a Unified Network2.Abstract3.Introduction4.Related Work4.1.Text Detection4.2.Text Recognition4.3.Text Spotting 5.Methodology5.1.Overall Architecture