tesseract-ocr字库训练图文讲解

2024-03-07 22:20

本文主要是介绍tesseract-ocr字库训练图文讲解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

第一步合成图片集

你需要把使用jTessBoxEditor工具把你的训练素材及多张图片合并成一张tif格式的图片集

第二步  生成box文件

运行tesseract命令,tesseract mjorcen.normal.exp0.tif mjorcen.normal.exp0 batch.nochop makebox,生成box文件 ,

 

第三步 

用 jTessBoxEditor打开生成的图片集 mjorcen.normal.exp0.tif ,注意  mjorcen.normal.exp0.tif 与对应的box文件一定要和他处于同一个文件夹下,然后就可以开始调整了,调整完之后保存

第四步 训练

首先在目录下新建一个名字为“font_properties”的文本文件,并且输入文本  normal 0 0 0 0 0,表示非斜体,粗体的一般字体

执行  tesseract  mjorcen.normal.exp0.tif mjorcen.normal.exp0  nobatch box.train  进行测试训练

执行 unicharset_extractor mjorcen.normal.exp0.box  目录下生成一个名为unicharset的文件

接下来开始正式进行训练

1、执行  shapeclustering -F font_properties.txt -U unicharset mjorcen.normal.exp0.tr 

 

2 、执行 mftraining -F font_properties.txt -U unicharset -O unicharset mjorcen.normal.exp0.tr

 

3  执行 cntraining mjorcen.normal.exp0.tr  

目录下会生成对应下列五个文件,在这五个文件前加上normal.进行重命名

 

4 执行 combine_tessdata normal.   合并五个文件,此时目录下的normal.traineddata 就是训练好的字库文件

第五步 测试字库

把normal.traineddata  复制到Tesseract-OCRt程序目录下的“tessdata”目录

在Tesseract-OCRt程序目录下执行  tesseract.exe mjorcen.normal.exp0.png out –l normal

out.txt文件中会保存你识别到的数据;

这个其实网上资料很多,但大都描述的不够详细和完整,这里我一步一步把使用tesseract-ocr 训练字库的方法和步骤进行了描述,亲测是没有问题。

 

转载于:https://www.cnblogs.com/dafanjoy/p/7566930.html

这篇关于tesseract-ocr字库训练图文讲解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/785021

相关文章

Python Transformers库(NLP处理库)案例代码讲解

《PythonTransformers库(NLP处理库)案例代码讲解》本文介绍transformers库的全面讲解,包含基础知识、高级用法、案例代码及学习路径,内容经过组织,适合不同阶段的学习者,对... 目录一、基础知识1. Transformers 库简介2. 安装与环境配置3. 快速上手示例二、核心模

C++ vector的常见用法超详细讲解

《C++vector的常见用法超详细讲解》:本文主要介绍C++vector的常见用法,包括C++中vector容器的定义、初始化方法、访问元素、常用函数及其时间复杂度,通过代码介绍的非常详细,... 目录1、vector的定义2、vector常用初始化方法1、使编程用花括号直接赋值2、使用圆括号赋值3、ve

python连接本地SQL server详细图文教程

《python连接本地SQLserver详细图文教程》在数据分析领域,经常需要从数据库中获取数据进行分析和处理,下面:本文主要介绍python连接本地SQLserver的相关资料,文中通过代码... 目录一.设置本地账号1.新建用户2.开启双重验证3,开启TCP/IP本地服务二js.python连接实例1.

Python 安装和配置flask, flask_cors的图文教程

《Python安装和配置flask,flask_cors的图文教程》:本文主要介绍Python安装和配置flask,flask_cors的图文教程,本文通过图文并茂的形式给大家介绍的非常详细,... 目录一.python安装:二,配置环境变量,三:检查Python安装和环境变量,四:安装flask和flas

Java调用C++动态库超详细步骤讲解(附源码)

《Java调用C++动态库超详细步骤讲解(附源码)》C语言因其高效和接近硬件的特性,时常会被用在性能要求较高或者需要直接操作硬件的场合,:本文主要介绍Java调用C++动态库的相关资料,文中通过代... 目录一、直接调用C++库第一步:动态库生成(vs2017+qt5.12.10)第二步:Java调用C++

Python基础文件操作方法超详细讲解(详解版)

《Python基础文件操作方法超详细讲解(详解版)》文件就是操作系统为用户或应用程序提供的一个读写硬盘的虚拟单位,文件的核心操作就是读和写,:本文主要介绍Python基础文件操作方法超详细讲解的相... 目录一、文件操作1. 文件打开与关闭1.1 打开文件1.2 关闭文件2. 访问模式及说明二、文件读写1.

Ubuntu中远程连接Mysql数据库的详细图文教程

《Ubuntu中远程连接Mysql数据库的详细图文教程》Ubuntu是一个以桌面应用为主的Linux发行版操作系统,这篇文章主要为大家详细介绍了Ubuntu中远程连接Mysql数据库的详细图文教程,有... 目录1、版本2、检查有没有mysql2.1 查询是否安装了Mysql包2.2 查看Mysql版本2.

Linux系统配置NAT网络模式的详细步骤(附图文)

《Linux系统配置NAT网络模式的详细步骤(附图文)》本文详细指导如何在VMware环境下配置NAT网络模式,包括设置主机和虚拟机的IP地址、网关,以及针对Linux和Windows系统的具体步骤,... 目录一、配置NAT网络模式二、设置虚拟机交换机网关2.1 打开虚拟机2.2 管理员授权2.3 设置子

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

Linux卸载自带jdk并安装新jdk版本的图文教程

《Linux卸载自带jdk并安装新jdk版本的图文教程》在Linux系统中,有时需要卸载预装的OpenJDK并安装特定版本的JDK,例如JDK1.8,所以本文给大家详细介绍了Linux卸载自带jdk并... 目录Ⅰ、卸载自带jdkⅡ、安装新版jdkⅠ、卸载自带jdk1、输入命令查看旧jdkrpm -qa