在IRIS中联合运用OCR与NLP技术

2024-03-04 05:40
文章标签 技术 联合 ocr 运用 nlp iris

本文主要是介绍在IRIS中联合运用OCR与NLP技术,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

根据IDC的报道,超过80%的信息是基于NoSQL的,尤其是文本文件。当数字服务或应用程序不能处理所有这些信息时,企业就会遭受损失。为了面对这一挑战,可以使用OCR技术。OCR使用机器学习和/或训练的图像模式将图像像素转化为文本。这一点很重要,因为许多文件被扫描成PDF格式的图像,或者许多文件中包含有文本的图像。因此,OCR是一个重要的步骤,可以从文件中获得所有可能的数据。

为了实现OCR,可以使用开源解决方案Google Tesseract,这是Python和Java社区中最流行的解决方案。Tesseract支持100多个习语,并且可以用新的模型进行训练以识别车牌、验证码等等。Tesseract是在C++中创建的,可以通过Java套用Tess4J构成一个中介层来使用它。下面的代码展示了调用过程。

private String extractTextFromImage ( File tempFile )  throws TesseractException {
 
ITesseract tesseract =  new Tesseract ();
tesseract . setDatapath ( "/usr/share/tessdata/" );  //directory to trained models
tesseract . setLanguage ( "eng+por" );  // choose your language/trained model
 
return tesseract . doOCR (tempFile);  //call tesseract function doOCR() 
//passing the file to be processed with OCR technique
 
}

为了让IRIS使用这个Java类并从Java获得结果,我们需要使用PEX和Java网关解决方案。

首先,有必要在Production中配置Java代理,其次,配置一个PEX业务操作或服务来在Production中连接沟通IRIS和Java。

Class dc . ocr . OcrProduction Extends Ens .Production
{
 
XData ProductionDefinition
{
< Production Name = "dc.ocr.OcrProduction" LogGeneralTraceEvents = "false" >
< Description ></ Description >
< ActorPoolSize > 2 </ ActorPoolSize >
< Item Name = "OcrService" Category = "" ClassName = "dc.ocr.OcrService" PoolSize = "1" Enabled = "true"
Foreground = "false" Comment = "" LogTraceEvents = "false" Schedule = "" >
</ Item >
< Item Name = "JavaGateway" Category = "" ClassName = "EnsLib.JavaGateway.Service" PoolSize = "1"
Enabled = "true" Foreground = "false" Comment = "" LogTraceEvents = "false" Schedule = "" >
< Setting Target = "Host" Name = "ClassPath" > .:/usr/irissys/dev/java/lib/JDK18/*:/opt/irisapp/*
:/usr/irissys/dev/java/lib/gson/*
:/usr/irissys/dev/java/lib/jackson/*:/jgw/ocr-pex-1.0.0.jar
</ Setting >
< Setting Target = "Host" Name = "JavaHome" > /usr/lib/jvm/java-8-openjdk-amd64/ </ Setting >
</ Item >
< Item Name = "OcrOperation" Category = "" ClassName = "EnsLib.PEX.BusinessOperation" PoolSize = "1"
Enabled = "true" Foreground = "false" Comment = "" LogTraceEvents = "false" Schedule = "" >
< Setting Target = "Host" Name = "%gatewayPort" > 55555 </ Setting >
< Setting Target = "Host" Name = "%remoteClassname" > community.intersystems.pex.ocr.OcrOperation </ Setting >
< Setting Target = "Host" Name = "%gatewayExtraClasspaths" > .:/usr/irissys/dev/java/lib/JDK18/*
:/opt/irisapp/*:/usr/irissys/dev/java/lib/gson/*
:/usr/irissys/dev/java/lib/jackson/*
:/jgw/ocr-pex-1.0.0.jar
</ Setting >
</ Item >
</ Production >
}
 
}

现在,任何IRIS Production都可以与Java和Tesseract进行通信了! 如下:

//call ocr method to get text from image, if you want to use pex
Set pRequest =  ##class ( dc . ocr . OcrRequest ). %New ()
Set pRequest . FileName =  file . Filename
// call java pex operation to do ocr, passing file into pRequest and receive ocr text with pResponse
Set tSC = .. SendRequestSync ( "OcrOperation" ,  pRequest , . pResponse ,  1200 )
//save the results into database to use text analytics - nlp
Set ocrTable =  ##class ( dc . ocr . OcrTable ). %New ()
Set ocrTable . FileName =  file . Filename
Set ocrTable . OcrText =  pResponse . StringValue
Set tSC =  ocrTable . %Save ()

所有的代码细节,连同注释都可以在我的OCR服务库(https://openexchange.intersystems.com/package/OCR-Service)中找到。

现在,随着文本的提取,我们需要使用IRIS NLP引擎来分析文本数据,并获得支持决策的见解。为此,当文本被提取后,它被保存到一个表中,这个表被NLP引擎用作文本源。请看上面的表%Save(),请看下面的代码,NLP引用OCRTable(有文本提取的地方)。如下:

Class dc . ocr . OcrNLP Extends %iKnow .DomainDefinition [  ProcedureBlock ]
{
 
XData Domain [  XMLNamespace =  "http://www.intersystems.com/iknow" ]
{
< domain name = "OcrNLP" disabled = "false" allowCustomUpdates = "true" >
< parameter name = "DefaultConfig" value = "OcrNLP.Configuration" isList = "false" />
< data dropBeforeBuild = "true" >
< table listname = "OcrNLPTable" batchMode = "true" disabled = "false"
listerClass = "%iKnow.Source.SQL.Lister" tableName = "dc_ocr.OcrTable" idField = "ID"
groupField = "ID" dataFields = "OcrText" metadataColumns = "FileName" metadataFields = "filename" />
</ data >
< matching disabled = "false" dropBeforeBuild = "true" autoExecute = "true" ignoreDictionaryErrors = "true" />
< metadata >
< field name = "filename" operators = "=" dataType = "STRING" storage = "0" caseSensitive = "false" disabled = "false" />
</ metadata >
< configuration name = "OcrNLP.Configuration" detectLanguage = "true" languages = "en,pt"
userDictionary = "OcrNLP.Dictionary#1" summarize = "true" maxConceptLength = "0" />
< userDictionary name = "OcrNLP.Dictionary#1" />
</ domain >
}
 
}

在我的OCR服务github资源库中看到完整的细节和配置。

现在我们可以上传一些文件,到资源管理器中查看概念和生成的CRC。

请参阅动画与这里讨论的所有步骤。

欢迎尝试 OCR/NLP!

这篇关于在IRIS中联合运用OCR与NLP技术的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/772167

相关文章

乐鑫 Matter 技术体验日|快速落地 Matter 产品,引领智能家居生态新发展

随着 Matter 协议的推广和普及,智能家居行业正迎来新的发展机遇,众多厂商纷纷投身于 Matter 产品的研发与验证。然而,开发者普遍面临技术门槛高、认证流程繁琐、生产管理复杂等诸多挑战。  乐鑫信息科技 (688018.SH) 凭借深厚的研发实力与行业洞察力,推出了全面的 Matter 解决方案,包含基于乐鑫 SoC 的 Matter 硬件平台、基于开源 ESP-Matter SDK 的一

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

持久层 技术选型如何决策?JPA,Hibernate,ibatis(mybatis)

转自:http://t.51jdy.cn/thread-259-1-1.html 持久层 是一个项目 后台 最重要的部分。他直接 决定了 数据读写的性能,业务编写的复杂度,数据结构(对象结构)等问题。 因此 架构师在考虑 使用那个持久层框架的时候 要考虑清楚。 选择的 标准: 1,项目的场景。 2,团队的技能掌握情况。 3,开发周期(开发效率)。 传统的 业务系统,通常业

亮相WOT全球技术创新大会,揭秘火山引擎边缘容器技术在泛CDN场景的应用与实践

2024年6月21日-22日,51CTO“WOT全球技术创新大会2024”在北京举办。火山引擎边缘计算架构师李志明受邀参与,以“边缘容器技术在泛CDN场景的应用和实践”为主题,与多位行业资深专家,共同探讨泛CDN行业技术架构以及云原生与边缘计算的发展和展望。 火山引擎边缘计算架构师李志明表示:为更好地解决传统泛CDN类业务运行中的问题,火山引擎边缘容器团队参考行业做法,结合实践经验,打造火山

百度OCR识别结构结构化处理视频

https://edu.csdn.net/course/detail/10506

MySQL的综合运用

MySQL版的葵花宝典,欲练此功,挥刀自。。。呃,,,说错了,是先创建两个表,分别是location表和store_info表 示例表为location表和store_info表,如下图所示: 操作一: ---- DISTINCT ----不显示重复的数据记录 语法:SELECT DISTINCT "字段" FROM "表名"; 示例:select distinct store_na

江西电信联合实在智能举办RPA数字员工培训班,培养“人工智能+”电信人才

近日,江西电信与实在智能合作的2024年数字员工开发应用培训班圆满闭幕。包括省公司及11个分公司的核心业务部门,超过40名学员积极报名参与此次培训,江西电信企业信息化部门总监徐建军出席活动并致辞,风控支撑室主任黄剑主持此次培训活动。 在培训会开幕仪式上,徐建军强调,科创是电信企业发展的核心动力,学习RPA技术是实现数字化转型的关键,他阐述了RPA在提高效率、降低成本和优化资源方面的价值,并鼓励学

(1995-2022年) 全国各省份-技术交易活跃度

技术交易活跃度是一个关键指标,用于衡量技术市场的交易频繁程度和活跃性。它不仅显示了市场参与者对技术交易的参与热情,而且交易的频率也体现了市场的活力。这一指标对于不同的利益相关者具有不同的意义: 对投资者而言,技术交易活跃度是把握市场趋势、评估交易策略和预测市场波动的重要工具。对企业来说,技术交易活跃度反映了其技术创新的活跃程度和市场竞争的激烈程度,有助于企业制定技术创新和市场竞争策略。对政策制定

mysql中存储过过程和游标的联合使用

1.SQL如下: DELIMITER //DROP PROCEDURE IF EXISTS PrintAllEmployeeNames5;CREATE PROCEDURE PrintAllEmployeeNames5()BEGINDECLARE error_count INT DEFAULT 0;DECLARE num INT ;DECLARE done INT DEFAULT

AI与音乐:当技术与艺术发生冲突

AI在创造还是毁掉音乐? 在科技日新月异的今天,人工智能(AI)已经渗透到了我们生活的方方面面,音乐领域也不例外。然而,尽管AI为音乐创作带来了前所未有的便利,我却深感其正在毁掉音乐的本质。 首先,AI的介入使得音乐创作过程变得过于机械化。传统的音乐创作往往需要音乐家们经过长时间的思考、尝试和修改,最终才能创作出触动人心的作品。这一过程不仅体现了音乐家的才华和技艺,更蕴含了他们对生活的感悟和对