开源字符识别 OCR 引擎推荐

2024-01-03 12:20

本文主要是介绍开源字符识别 OCR 引擎推荐,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Tesseract 开源 OCR 引擎(主存储库)

github地址

https://github.com/tesseract-ocr/tesseract

官方网址

tesseract-ocr.github.io/

Tesseract 是一个开源的光学字符识别(OCR)引擎,它能够从图像文件中识别和提取文字。Tesseract 由 Ray Smith 在 1985 到 1995 年间在惠普公司(Hewlett-Packard)的布里斯托尔实验室开发。在 2005 年,Tesseract 被惠普开源,并且自 2006 年以来,它一直在由 Google 进行维护和开发。

Tesseract 的主要特点包括:

1. 多语言支持:Tesseract 支持多种语言,包括但不限于英语、中文、西班牙语、法语、德语等。它通过使用预训练的语言模型来提高识别的准确性。

2. 平台兼容性:Tesseract 可以在多种操作系统上运行,包括 Windows、Linux、Mac OS X 等。

3. 命令行工具:Tesseract 主要作为一个命令行工具提供,用户可以通过命令行接口与它交互,执行 OCR 任务。

4. 易于集成:Tesseract 可以很容易地集成到其他应用程序中,它提供了多种编程语言的接口,如 C/C++、Python、Java 等。

5. 开源和免费:Tesseract 是完全开源的,并且可以免费使用。它的源代码托管在 GitHub 上,任何人都可以贡献代码或者修改代码来适应自己的需求。

6. 社区支持:Tesseract 拥有一个活跃的社区,用户和开发者可以分享经验、解决问题和改进引擎。

7. 培训和自定义:Tesseract 允许用户对自己的数据集进行训练,以创建定制的语言模型和字符识别规则。

8. 输出格式:Tesseract 支持多种输出格式,包括纯文本、HTML、PDF、TSV 等,这使得它可以根据不同的需求进行灵活的使用。

Tesseract 的最新版本是 4.x,它引入了一些新的功能和改进,包括一个基于神经网络(LSTM)的 OCR 引擎,这个新引擎专注于线条识别,并且提供了更好的字符识别性能。Tesseract 4 也与之前的版本兼容,支持旧的 OCR 引擎模式 (--oem0) 和相关的 traineddata 文件。

总的来说,Tesseract 是一个功能强大、灵活且不断进化的 OCR 引擎,它在学术、商业和开源社区中都有广泛的应用。

Tesseract 4 添加了一个新的基于神经网络 (LSTM) 的OCR 引擎,该引擎专注于线条识别,但仍然支持 Tesseract 3 的旧版 Tesseract OCR 引擎,该引擎通过识别字符模式进行工作。通过使用旧版 OCR 引擎模式 (--oem 0) 可以实现与 Tesseract 3 的兼容性。它还需要支持旧引擎的经过训练的数据文件,例如来自tessdata存储库的数据文件。

Stefan Weil 是现任首席开发人员。Ray Smith 一直是首席开发人员,直到 2018 年。维护者是 Zdenko Podobny。有关贡献者列表,请参阅作者 和 GitHub 的贡献者日志。

Tesseract支持 unicode (UTF-8),并且可以“开箱即用”识别100 多种语言。

Tesseract 支持多种图像格式,包括 PNG、JPEG 和 TIFF。

Tesseract 支持各种输出格式:纯文本、hOCR (HTML)、PDF、仅不可见文本的 PDF、TSV 和 ALTO。

您应该注意,在许多情况下,为了获得更好的 OCR 结果,您需要提高提供给 Tesseract 的图像质量。

该项目不包括 GUI 应用程序。如果您需要,请参阅3rdParty文档。

可以训练Tesseract识别其他语言。有关更多信息,请参阅Tesseract 培训。

安装

您可以通过预构建的二进制包安装 Tesseract 或从源代码构建它。

从源代码构建 Tesseract 需要具有良好 C++17 支持的 C++ 编译器。

运行

基本命令行用法:

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

有关各种命令行选项的更多信息,请使用tesseract --helpman tesseract

示例可以在文档中找到。

这篇关于开源字符识别 OCR 引擎推荐的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/565677

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

安全管理体系化的智慧油站开源了。

AI视频监控平台简介 AI视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程,实现芯片、算法、应用的全流程组合,从而大大减少企业级应用约95%的开发成本。用户只需在界面上进行简单的操作,就可以实现全视频的接入及布控。摄像头管理模块用于多种终端设备、智能设备的接入及管理。平台支持包括摄像头等终端感知设备接入,为整个平台提

防近视护眼台灯什么牌子好?五款防近视效果好的护眼台灯推荐

在家里,灯具是属于离不开的家具,每个大大小小的地方都需要的照亮,所以一盏好灯是必不可少的,每个发挥着作用。而护眼台灯就起了一个保护眼睛,预防近视的作用。可以保护我们在学习,阅读的时候提供一个合适的光线环境,保护我们的眼睛。防近视护眼台灯什么牌子好?那我们怎么选择一个优秀的护眼台灯也是很重要,才能起到最大的护眼效果。下面五款防近视效果好的护眼台灯推荐: 一:六个推荐防近视效果好的护眼台灯的

智能交通(二)——Spinger特刊推荐

特刊征稿 01  期刊名称: Autonomous Intelligent Systems  特刊名称: Understanding the Policy Shift  with the Digital Twins in Smart  Transportation and Mobility 截止时间: 开放提交:2024年1月20日 提交截止日

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

HomeBank:开源免费的个人财务管理软件

在个人财务管理领域,找到一个既免费又开源的解决方案并非易事。HomeBank 正是这样一个项目,它不仅提供了强大的功能,还拥有一个活跃的社区,不断推动其发展和完善。 开源免费:HomeBank 是一个完全开源的项目,用户可以自由地使用、修改和分发。用户友好的界面:提供直观的图形用户界面,使得非技术用户也能轻松上手。数据导入支持:支持从 Quicken、Microsoft Money