【MindSpore】【跟着小Mi一起机器学习吧】图片文字识别

2024-01-07 16:32

本文主要是介绍【MindSpore】【跟着小Mi一起机器学习吧】图片文字识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

时间可过得真快,本周小Mi的更新便是我们机器学习系列的最后一期啦!说了那么多理论,总该来点案例对不对!废话不多说,让我们开始吧~

定义

那么什么是图片文字识别呢?其实对应的英文全称为Photo Optical Character Recognition,也可以翻译为图片光学字符识别。

随着智能手机拍照功能的成熟,OCR技术注重的是如何让计算机读取图片中的文字信息,从而方便以后的自动查找,而不是从成千上万的照片中用鼠标一张张照片点开查询,再逐个关闭(是不是想想都头大呢)。当然啦,从一张给定的图片中识别文字肯定比从一份扫描文档中识别文字要复杂的多。

操作流程

按照我们正常的理解,图片文字识别的话通常会先将图像扫描一遍,然后找出图片中的文字信息,并重点关注这些文字区域,同时对区域中的文字进行识别,当正确读出这些文字以后,将这些文字内容显示并记录下来。听起来好像很简单,毕竟光学文字识别对于扫描文档来说,已经是一个比较简单的问题了,但是对于常用的图片、照片来说,还算是一个较难的机器学习问题。

因此,实现图片OCR技术需要采取如下步骤:

1.文字探测(Text detection)——扫描图像并找出有文字的图像区域,将图片上的文字与其他环境对象分离开来;

2.字符切分(Character segmentation)——进行文字分离,将文字分割成一个个单一的字符;

3.字符分类(Character classification)——确定每一个字符是什么。

流程图也能够非常直观地表达这个学习问题,每一项任务都可以单独拆解开来进行处理:

如果成功解决了这样的问题,不仅可以帮助计算机更好地理解图像中的内容,还可以做一些更有意义的事情,比如可以为盲人提供一种相机,该相机可以识别出盲人前面的各种潜在危险路障。

滑动窗口

滑动窗口是一项用来从图像中抽取对象的技术。假使我们需要在一张图片中识别行人,首先要做的是用许多固定尺寸的图片来训练一个能够准确识别行人的模型。然后用之前训练识别行人的模型时所采用的图片尺寸在我们要进行行人识别的图片上进行剪裁,将剪裁得到的部分交给模型,让模型判断是否为行人,继而不断地在图片上滑动剪裁区域重新进行剪裁,同样将新剪裁的部分交给模型进行判断,如此循环直至将图片全部检测完。

一旦完成后,按比例放大剪裁的区域,再以新的尺寸对图片进行剪裁,将新剪裁的部分按比例缩小至模型所采纳的尺寸,交给模型进行判断,如此循环。

滑动窗口技术也被用于文字识别,首先训练模型能够区分字符与非字符,然后运用滑动窗口技术识别字符,一旦完成了字符的识别,我们将识别得出的区域进行一些扩展,然后将重叠的区域进行合并。接着便可以以宽高比作为过滤条件,过滤掉高度比宽度更大的区域(默认单词的长度通常比高度要大)。下图中绿色的区域是经过这些步骤后被认为是文字的区域,而红色的区域是被忽略的。

下一步是训练一个模型来完成将文字分割成一个个字符的任务,需要的训练集由单个字符的图片和两个相连字符之间的图片来训练模型。

模型训练完后,我们仍然是使用滑动窗口技术来进行字符识别。

最后一个阶段是字符分类阶段,利用神经网络、支持向量机或者逻辑回归算法训练一个分类器即可。

数据获取

如果我们的模型是低方差的,那么获得更多的数据用于训练模型是能够有更好的效果的。问题在于,怎样获得更多的数据,可能还需要人工地创造一些数据。

以文字识别应用为例,可以从字体网站下载各种字体,然后利用这些不同的字体配上各种不同的随机背景图片创造出一些用于训练的实例,这将会帮助大家获得一个无限大的训练集。

同时,还可以利用已有的数据对其进行修改,例如将已有的字符图片进行一些扭曲、旋转、模糊处理。只要实际数据和经过处理后的数据依旧相似,那么便可以创造大量的数据。

因此,获得更多数据可以通过如下方式:

1.人工数据合成

2.手动收集、标记数据

3.众包

局部分析

在机器学习的应用中,通常需要通过几个步骤才能进行最终的预测,那么如何知道哪一部分是最值得我们花精力去完善的呢?

大家可以跟着小Mi再仔细观察一下文字识别应用的流程图:

流程图中每一部分的输出都是下一部分的输入,选取某一部分手动提供100%正确的输出结果,然后看最终的整体效果提升了多少。(假使总体效果为72%的正确率)

令Text detection部分输出的结果100%正确,发现系统的总体效果从72%提高到了89%。这就意味着需要在Text detection部分多花些功夫啦。

接着手动选择数据,使得Character segmentation部分输出的结果100%正确,发现系统的总体效果最终只提升了1%,也就是说Character segmentation部分已经足够好啦。

同样Character recognition也是这样的检验方法啦~输出结果100%正确,系统的总体效果又提升了10%,表示完善Character recognition部分可以使得整体系统有较大的提升。

虽然整个系列小Mi只在最后介绍了机器学习相关的一个案例,但是已经足够可以展现一个复杂的机器学习系统是如何被组合起来的,同时也介绍了机器学习操作流程的有关概念以及如何分配资源来以作出更好的决定,希望可以帮助到大家学习如何自己开发一个复杂的机器学习应用呦。

好啦,相聚总会有离别的时候,却依旧期待着下次的美好相遇,小Mi还记着当初跟大家的约定,后续一定会带来更多的学习系列!

PS:再次感谢吴恩达老师!通过观看老师的视频,小Mi也重新对机器学习有了更多更深的理解,感谢大佬!!!

好啦,我们,下个系列,再见呦!(挥手24h,太舍不得啦~)

这篇关于【MindSpore】【跟着小Mi一起机器学习吧】图片文字识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/580549

相关文章

Python使用PIL库将PNG图片转换为ICO图标的示例代码

《Python使用PIL库将PNG图片转换为ICO图标的示例代码》在软件开发和网站设计中,ICO图标是一种常用的图像格式,特别适用于应用程序图标、网页收藏夹图标等场景,本文将介绍如何使用Python的... 目录引言准备工作代码解析实践操作结果展示结语引言在软件开发和网站设计中,ICO图标是一种常用的图像

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

SpringBoot集成图片验证码框架easy-captcha的详细过程

《SpringBoot集成图片验证码框架easy-captcha的详细过程》本文介绍了如何将Easy-Captcha框架集成到SpringBoot项目中,实现图片验证码功能,Easy-Captcha是... 目录SpringBoot集成图片验证码框架easy-captcha一、引言二、依赖三、代码1. Ea

如何使用CSS3实现波浪式图片墙

《如何使用CSS3实现波浪式图片墙》:本文主要介绍了如何使用CSS3的transform属性和动画技巧实现波浪式图片墙,通过设置图片的垂直偏移量,并使用动画使其周期性地改变位置,可以创建出动态且具有波浪效果的图片墙,同时,还强调了响应式设计的重要性,以确保图片墙在不同设备上都能良好显示,详细内容请阅读本文,希望能对你有所帮助...

Python脚本实现图片文件批量命名

《Python脚本实现图片文件批量命名》这篇文章主要为大家详细介绍了一个用python第三方库pillow写的批量处理图片命名的脚本,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言源码批量处理图片尺寸脚本源码GUI界面源码打包成.exe可执行文件前言本文介绍一个用python第三方库pi

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

Python利用PIL进行图片压缩

《Python利用PIL进行图片压缩》有时在发送一些文件如PPT、Word时,由于文件中的图片太大,导致文件也太大,无法发送,所以本文为大家介绍了Python中图片压缩的方法,需要的可以参考下... 有时在发送一些文件如PPT、Word时,由于文件中的图片太大,导致文件也太大,无法发送,所有可以对文件中的图

java获取图片的大小、宽度、高度方式

《java获取图片的大小、宽度、高度方式》文章介绍了如何将File对象转换为MultipartFile对象的过程,并分享了个人经验,希望能为读者提供参考... 目China编程录Java获取图片的大小、宽度、高度File对象(该对象里面是图片)MultipartFile对象(该对象里面是图片)总结java获取图片