【MindSpore】【跟着小Mi一起机器学习吧】图片文字识别

本文主要是介绍【MindSpore】【跟着小Mi一起机器学习吧】图片文字识别，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

时间可过得真快，本周小Mi的更新便是我们机器学习系列的最后一期啦！说了那么多理论，总该来点案例对不对！废话不多说，让我们开始吧~

定义

那么什么是图片文字识别呢？其实对应的英文全称为Photo Optical Character Recognition，也可以翻译为图片光学字符识别。

随着智能手机拍照功能的成熟，OCR技术注重的是如何让计算机读取图片中的文字信息，从而方便以后的自动查找，而不是从成千上万的照片中用鼠标一张张照片点开查询，再逐个关闭（是不是想想都头大呢）。当然啦，从一张给定的图片中识别文字肯定比从一份扫描文档中识别文字要复杂的多。

操作流程

按照我们正常的理解，图片文字识别的话通常会先将图像扫描一遍，然后找出图片中的文字信息，并重点关注这些文字区域，同时对区域中的文字进行识别，当正确读出这些文字以后，将这些文字内容显示并记录下来。听起来好像很简单，毕竟光学文字识别对于扫描文档来说，已经是一个比较简单的问题了，但是对于常用的图片、照片来说，还算是一个较难的机器学习问题。

因此，实现图片OCR技术需要采取如下步骤：

1.文字探测（Text detection）——扫描图像并找出有文字的图像区域，将图片上的文字与其他环境对象分离开来；

2.字符切分（Character segmentation）——进行文字分离，将文字分割成一个个单一的字符；

3.字符分类（Character classification）——确定每一个字符是什么。

流程图也能够非常直观地表达这个学习问题，每一项任务都可以单独拆解开来进行处理：

如果成功解决了这样的问题，不仅可以帮助计算机更好地理解图像中的内容，还可以做一些更有意义的事情，比如可以为盲人提供一种相机，该相机可以识别出盲人前面的各种潜在危险路障。

滑动窗口

滑动窗口是一项用来从图像中抽取对象的技术。假使我们需要在一张图片中识别行人，首先要做的是用许多固定尺寸的图片来训练一个能够准确识别行人的模型。然后用之前训练识别行人的模型时所采用的图片尺寸在我们要进行行人识别的图片上进行剪裁，将剪裁得到的部分交给模型，让模型判断是否为行人，继而不断地在图片上滑动剪裁区域重新进行剪裁，同样将新剪裁的部分交给模型进行判断，如此循环直至将图片全部检测完。

一旦完成后，按比例放大剪裁的区域，再以新的尺寸对图片进行剪裁，将新剪裁的部分按比例缩小至模型所采纳的尺寸，交给模型进行判断，如此循环。

滑动窗口技术也被用于文字识别，首先训练模型能够区分字符与非字符，然后运用滑动窗口技术识别字符，一旦完成了字符的识别，我们将识别得出的区域进行一些扩展，然后将重叠的区域进行合并。接着便可以以宽高比作为过滤条件，过滤掉高度比宽度更大的区域（默认单词的长度通常比高度要大）。下图中绿色的区域是经过这些步骤后被认为是文字的区域，而红色的区域是被忽略的。