表格识别2-用jTessBoxEditor训练tesseract模型

2023-11-02 01:58

本文主要是介绍表格识别2-用jTessBoxEditor训练tesseract模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

导语:

上文我们讲到了怎么使用tesseract,本文讲一下怎么对手写的数字进行训练,看完之后可以举一反三对
其他语言比如中文或者其他文字甚至是符号进行自己的训练,方式方法都是通用的。

前提条件:

1.安装java环境(因为jTessBoxEditor使用java的写一个图形化的工具,所以需要java的运行环境,不会的请自行谷歌啦)
2.安装好tesseract(sourceforge下载地址)
3.识别不准的图片(这里我先手写了一张12345的图片,识别出来的是1365,默认使用的eng语言库)

如下:

结果:

tesseract 12345.png stdout
1365

训练步骤:

1.打开jTessBoxEditor
在命令行输入

java -jar jTessBoxEditor

就会弹出一个交互式的窗口

2.选择Tools->Merge TIFF

3.然后选择一张图片,这里我创建了一个train的目录用来放图片和接下来的各种文件
文件名命名格式是:[lang].[fontname].exp[num].tif
lang-语言
fontname-字体
num-自定义的数字

这里因为是识别的数字,所以我取的是num.test.exp0.tif。
后面的步骤会反复用到这个名字。

完成后jTessBoxEditor工具会出现下面的弹框,并且在当前train目录会生成num.test.exp0.tif的文件。

4.生成box文件,box就是把每个识别出来的文字框起来

输入命令:
tesseract num.test.exp0.tif num.test.exp0  --psm 3 batch.nochop makebox

运行成功会生成一个num.test.exp0.box的文件

5.接下来训练刚才的图片(其实就是手动把错误的识别结果改成正确的)
打开jTessBoxEdtor->Box Editor->Open,打开之前的num.test.exp0.tif,这里会使用到同目录下的num.test.exp0.box,所以要都放在同一个目录下。
把没有识别出来的2,在Char栏目填上,把识别错误的4改为6。修改完成后记得按回车然后Save保存起来。

6.生成font_properties文件
可以手创建一个空文件然后填上test 0 0 0 0 0
说明:

test 0 0 0 0 0
【语法】:<fontname> <italic> <bold> <fixed> <serif> <fraktur>
【语法】:fontname为字体名称,italic为斜体,bold为黑体字,
fixed为默认字体,serif为衬线字体,fraktur德文黑字体,
1和0代表有和无,精细区分时可使用

也可以使用命令:

echo test 0 0 0 0 0 > font_properties

记住字体名称必须和之前的num.test.exp0中的test保持一致。
7.生成训练文件

tesseract num.test.exp0.tif num.test.exp0 nobatch box.train

8.生成字符集

unicharset_extractor zwp.test.exp0.box

执行成功会生成unicharset的文件

这里有一点要注意,如果你安装的tesseract是没有带训练工具的话,你会被提示

zsh: command not found: unicharset_extractor

可以参考另一篇blog:zsh: command not found: unicharset_extractor

9.生成聚字符特征文件

输入命令:
mftraining -F font_properties -U unicharset -O num.unicharset num.test.exp0.tr

执行成功后会生成inttemp、pffmtable、shapetable和num.unicharset四个文件

10.生成字符正常化特征文件

cntraining num.test.exp0.tr

执行成功后会生成normproto的文件

11.重命名文件

mv normproto num.normproto
mv inttemp num.inttemp
mv pffmtable num.pffmtable
mv shapetable num.shapetable

12.合并训练文件

combine_tessdata num.

会生成一个num.traineddata的文件,看到这里是不是笑开了花?没错这个就是最终的训练集了,把这个放到tesseract的tessdata目录之下。
可能是/usr/local/Cellar/tesseract/4.1.1/share/tessdata也可能是/usr/local/share/tessdata

13.最终结果:

总结:

1.要想完成这个流程要使用安装了训练工具的tesseract,tesseract现在好像不支持带训练工具的安装参数了,安装会报下面的错误(本人使用的是tesseract4.1.1版本) Error: invalid option: --with-training-tools
,所以安装训练工具需要自己编译安装,可以参考博客
2.其实整个步骤中绝大部分命令可以使用脚本帮忙完成掉,只有jTessBoxEditor标注矫正结果需要使用到界面,如果可以把jTessBoxEditor标注结果做成一个工具,矫正完剩下的命令都自动执行就可以批量的训练了。

欢迎关注我的公众号,更多干货等着你,你的支持是我继续创作的动力~

在这里插入图片描述

这篇关于表格识别2-用jTessBoxEditor训练tesseract模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/327305

相关文章

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

利用Python开发Markdown表格结构转换为Excel工具

《利用Python开发Markdown表格结构转换为Excel工具》在数据管理和文档编写过程中,我们经常使用Markdown来记录表格数据,但它没有Excel使用方便,所以本文将使用Python编写一... 目录1.完整代码2. 项目概述3. 代码解析3.1 依赖库3.2 GUI 设计3.3 解析 Mark

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

Java利用poi实现word表格转excel

《Java利用poi实现word表格转excel》这篇文章主要为大家详细介绍了Java如何利用poi实现word表格转excel,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 一、每行对象类需要针对不同的表格进行对应的创建。package org.example.wordToEx

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

使用EasyExcel实现简单的Excel表格解析操作

《使用EasyExcel实现简单的Excel表格解析操作》:本文主要介绍如何使用EasyExcel完成简单的表格解析操作,同时实现了大量数据情况下数据的分次批量入库,并记录每条数据入库的状态,感兴... 目录前言固定模板及表数据格式的解析实现Excel模板内容对应的实体类实现AnalysisEventLis

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

使用Python实现表格字段智能去重

《使用Python实现表格字段智能去重》在数据分析和处理过程中,数据清洗是一个至关重要的步骤,其中字段去重是一个常见且关键的任务,下面我们看看如何使用Python进行表格字段智能去重吧... 目录一、引言二、数据重复问题的常见场景与影响三、python在数据清洗中的优势四、基于Python的表格字段智能去重