【天池—街景字符编码识别】Task 1 赛题理解

2024-01-14 09:58

本文主要是介绍【天池—街景字符编码识别】Task 1 赛题理解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 1 比赛说明
  • 2 数据说明
    • 2.1 数据来源
    • 2.2 数据集
    • 2.3 数据标注信息(json文件)
  • 3 评价标准
  • 4 提交的结果形式
  • 5 解题思路(重点)
    • 5.1 简单入门思路:定长字符识别
    • 5.2 专业字符识别思路:不定长字符识别
    • 5.3 专业分类思路:检测再识别

1 比赛说明

  • 比赛链接:https://tianchi.aliyun.com/competition/entrance/531795/introduction
  • 比赛任务:以计算机视觉中字符识别为背景,要求参赛者预测真实场景下的字符识别,这是一个典型的字符识别问题——零基础入门CV赛事之街景字符识别。

2 数据说明

2.1 数据来源

  来源于http://ufldl.stanford.edu/housenumbers/的公开数据集。

2.2 数据集

  • 训练集:3W张照片
  • 验证集:1W张照片
  • 测试集A:4W张照片
  • 测试集B:4W张照片
  • 每张照片包括颜色图像和对应的编码类别和具体位置,如下图所示:
    在这里插入图片描述

2.3 数据标注信息(json文件)

  用记事本或Notepad++打开数据的json文件,部分数据如下所示:

{"000000.png": {"height": [219, 219], "label": [1, 9], "left": [246, 323], "top": [77, 81], "width": [81, 96]}, 
"000001.png": {"height": [32, 32], "label": [2, 3], "left": [77, 98], "top": [29, 25], "width": [23, 26]}, 
"000002.png": {"height": [15, 15], "label": [2, 5], "left": [17, 25], "top": [5, 5], "width": [8, 9]},
"000003.png": {"height": [34, 34], "label": [9, 3], "left": [57, 72], "top": [13, 13], "width": [15, 13]},"000004.png": {"height": [46, 46], "label": [3, 1], "left": [52, 74], "top": [7, 10], "width": [21, 15]}, 
"000005.png": {"height": [21, 21], "label": [3, 3], "left": [28, 38], "top": [6, 8], "width": [10, 11]}, 
"000006.png": {"height": [32, 32], "label": [2, 8], "left": [35, 47], "top": [10, 11], "width": [13, 13]}, 
"000007.png": {"height": [15, 15, 15], "label": [7, 4, 4], "left": [17, 25, 31], "top": [4, 4, 3], "width": [7, 6, 7]}, 
"000008.png": {"height": [24, 24, 24], "label": [1, 2, 8], "left": [19, 29, 38], "top": [4, 4, 5], "width": [14, 13, 17]}, 

  将其数据结构理解成”嵌套的字典“,那么每一张图片有height、label、left、top、width五种信息,其分别代表:top:左上角坐标X ; height:字符高度; left:左上角最表Y; width:字符宽度; label:字符编码。另外label表示该图片含有的数字(字符)。
  字符的坐标具体如下所示:
在这里插入图片描述

3 评价标准

  评价标准为准确率,选手提交结果与实际图片的编码进行对比,以编码整体识别准确率为评价指标,结果越大越好,具体计算公式如下:
s c o r e = 编 码 识 别 正 确 的 数 量 测 试 集 图 片 数 量 score = \frac {编码识别正确的数量}{测试集图片数量} score=
  要注意:任何一个字符错误都为错误。

4 提交的结果形式

  提交前请确保预测结果的格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。

file_name, file_code
0010000.jpg,451
0010001.jpg,232
0010002.jpg,45
0010003.jpg,67
0010004.jpg,191
0010005.jpg,892

5 解题思路(重点)

  赛题本质是分类问题,需要对图片的字符进行识别。但赛题给定的数据图片中不同图片中包含的字符数量不等。图片的字符个数为从2个到6个不等。因此本次赛题的难点是需要对不定长的字符进行识别,与传统的图像分类任务有所不同

5.1 简单入门思路:定长字符识别

  定长文字的识别相对简单,应用场景也比较局限,最典型的场景就是验证码的识别机动车车牌的识别。由于字符数量是已知的、固定的,因此,网络结构比较简单,一般构建3层卷积层,2层全连接层便能满足“定长文字”的识别。
  将赛题抽象为一个定长字符识别问题,在赛题数据集中大部分图像中字符个数为2-4个,最多的字符 个数为6个。因此可以对于所有的图像都抽象为6个字符的识别问题,字符23填充为23XXXX,字符231填充为231XXX。
  经过填充之后,原始的赛题可以简化了6个字符的分类问题。在每个字符的分类中会进行11个类别的分类,假如分类为填充字符,则表明该字符为空。
  一些定长字符识别的例子:

  • 使用 Keras 来破解 captcha 验证码
  • 文字识别模型(入门篇:验证码识别)
  • GPU 学习深度学习系列Part 5:文字的识别与定位(识别车牌)

5.2 专业字符识别思路:不定长字符识别

  不定长文字在现实中大量存在,例如印刷文字、广告牌文字等,由于字符数量不固定、不可预知,因此,识别的难度也较大,这也是目前研究文字识别的主要方向。下面介绍不定长文字识别的常用方法:LSTM+CTC、CRNN、chinsesocr
  在字符识别研究中,有特定的方法来解决此种不定长的字符识别问题,比较典型的有CRNN字符识别模型。在本次赛题中给定的图像数据都比较规整,可以视为一个单词或者一个句子。
  一些不定长字符识别的例子:

  • https://my.oschina.net/u/876354/blog/3070699/print
  • https://zhuanlan.zhihu.com/p/29954560
  • 【OCR技术系列之七】端到端不定长文字识别CRNN算法详解

5.3 专业分类思路:检测再识别

  在赛题数据中已经给出了训练集、验证集中所有图片中字符的位置,因此可以首先将字符的位置进行识别,利用物体检测的思路完成。此种思路需要参赛者构建字符检测模型,对测试集中的字符进行识别。参赛者可以参考物体检测模型SSD或者YOLO来完成。

这篇关于【天池—街景字符编码识别】Task 1 赛题理解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/604772

相关文章

Java使用Spire.Barcode for Java实现条形码生成与识别

《Java使用Spire.BarcodeforJava实现条形码生成与识别》在现代商业和技术领域,条形码无处不在,本教程将引导您深入了解如何在您的Java项目中利用Spire.Barcodefor... 目录1. Spire.Barcode for Java 简介与环境配置2. 使用 Spire.Barco

GO语言zap日志库理解和使用方法示例

《GO语言zap日志库理解和使用方法示例》Zap是一个高性能、结构化日志库,专为Go语言设计,它由Uber开源,并且在Go社区中非常受欢迎,:本文主要介绍GO语言zap日志库理解和使用方法的相关资... 目录1. zap日志库介绍2.安装zap库3.配置日志记录器3.1 Logger3.2 Sugared

深入理解Redis线程模型的原理及使用

《深入理解Redis线程模型的原理及使用》Redis的线程模型整体还是多线程的,只是后台执行指令的核心线程是单线程的,整个线程模型可以理解为还是以单线程为主,基于这种单线程为主的线程模型,不同客户端的... 目录1 Redis是单线程www.chinasem.cn还是多线程2 Redis如何保证指令原子性2.

深入理解MySQL流模式

《深入理解MySQL流模式》MySQL的Binlog流模式是一种实时读取二进制日志的技术,允许下游系统几乎无延迟地获取数据库变更事件,适用于需要极低延迟复制的场景,感兴趣的可以了解一下... 目录核心概念一句话总结1. 背景知识:什么是 Binlog?2. 传统方式 vs. 流模式传统文件方式 (非流式)流

深入理解Go之==的使用

《深入理解Go之==的使用》本文主要介绍了深入理解Go之==的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录概述类型基本类型复合类型引用类型接口类型使用type定义的类型不可比较性谈谈map总结概述相信==判等操作,大

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

Python动态处理文件编码的完整指南

《Python动态处理文件编码的完整指南》在Python文件处理的高级应用中,我们经常会遇到需要动态处理文件编码的场景,本文将深入探讨Python中动态处理文件编码的技术,有需要的小伙伴可以了解下... 目录引言一、理解python的文件编码体系1.1 Python的IO层次结构1.2 编码问题的常见场景二

如何正确识别一台POE交换机的好坏? 选购可靠的POE交换机注意事项

《如何正确识别一台POE交换机的好坏?选购可靠的POE交换机注意事项》POE技术已经历多年发展,广泛应用于安防监控和无线覆盖等领域,需求量大,但质量参差不齐,市场上POE交换机的品牌繁多,如何正确识... 目录生产标识1. 必须包含的信息2. 劣质设备的常见问题供电标准1. 正规的 POE 标准2. 劣质设

Java中字符编码问题的解决方法详解

《Java中字符编码问题的解决方法详解》在日常Java开发中,字符编码问题是一个非常常见却又特别容易踩坑的地方,这篇文章就带你一步一步看清楚字符编码的来龙去脉,并结合可运行的代码,看看如何在Java项... 目录前言背景:为什么会出现编码问题常见场景分析控制台输出乱码文件读写乱码数据库存取乱码解决方案统一使

Java实现字节字符转bcd编码

《Java实现字节字符转bcd编码》BCD是一种将十进制数字编码为二进制的表示方式,常用于数字显示和存储,本文将介绍如何在Java中实现字节字符转BCD码的过程,需要的小伙伴可以了解下... 目录前言BCD码是什么Java实现字节转bcd编码方法补充总结前言BCD码(Binary-Coded Decima