使用卓正PageOffice--Word文档全文检索

2024-03-01 01:30

本文主要是介绍使用卓正PageOffice--Word文档全文检索,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

一、 背景介绍

Word文档与日常办公密不可分,在实际应用中,当某一文档服务器中有很多Word文档,假如有成千上万个文档时,用户查找打开包含某些指定关键字的文档就变得很困难,目前网络上能找到的解决方案多是使用服务器端的Apache POI技术将所有文档的文本获取后存储到数据库,然后打开文档时利用sql语句检索文档是否包含关键字来判断是否是打开文档。但是这种解决办法有很大的弊端,首先POI技术对word文档支持不是很好,其中支持word的接口单一而且不太稳定,对word文档的格式也要求很高。其次如果将成千上万个文档使用poi将其文本内容存储到数据库这一操作将会在很大程度上影响服务器的性能。

PageOffice提供了获取Word文档全文纯文本的功能,可以把获取到的文本内容保存到数据库,利用数据库sql语句检索文档是否包含关键字来实现这一需求。PageOffice获取文档纯文本的工作是客户端执行的,这样就在很大程度上减轻了对服务器的压力,提高了服务器的性能。

二、主要实现代码

获取Word文档中的纯文本文件(不带任何附加格式)并保存到数据库,以后就可以简单的利用SQL查询轻松实现文档管理中的全文检索功能。

Java代码:

    FileSaver fs = new FileSaver(request, response);String strDocumentText = fs.getDocumentText(); // 您可以把此文本字符串保存到数据库字段。保存到数据库的代码此处省略fs.saveToFile(request.getRealPath("doc/") + "/" + fs.getFileName());fs.Close();

ASP.NET代码:

    PageOffice.FileSaver fs = new PageOffice.FileSaver();string strDocumentText = fs.DocumentText; // 您可以把此文本字符串保存到数据库字段。保存到数据库的代码此处省略fs.SaveToFile(Server.MapPath("doc/") + fs.FileName);fs.Close();

注意:此属性目前仅适用于Word。

三、示例说明

请参考PageOffice开发包中Samples4示例的综合演示:
三、全文搜索包含关键字的Word文档(专业版、企业版)

获取文档中的纯文本保存到数据库,根据关键字检索文档中是否包含该关键字。

  1. 数据库中的文档的存储结构说明(以access数据库为例)。
    144

  2. 搜索包含关键字的文档,以列表显示文档名。
    145

  3. 打开编辑包含关键字的文档,并且高亮显示关键字。
    146
    高亮显示的主要js代码:

     var sMac = "function myfunc()" + "\r\n"+ "    Application.Selection.HomeKey(6) \r\n"+ "    Application.Selection.Find.ClearFormatting \r\n"+ "    Application.Selection.Find.Replacement.ClearFormatting \r\n"+ "    Application.Selection.Find.Text = \"" + key + "\" \r\n"+ "    While (Application.Selection.Find.Execute()) \r\n"+ "        If (" + visible + ") Then \r\n"+ "            Application.Selection.Range.HighlightColorIndex = 7 \r\n"+ "        Else \r\n"+ "            Application.Selection.Range.HighlightColorIndex = 0 \r\n"+ "        End If \r\n"+ "    Wend \r\n"+ "    Application.Selection.HomeKey(6) \r\n"+ "End function";document.getElementById("PageOfficeCtrl1").RunMacro("myfunc", sMac);   

转载于:https://my.oschina.net/u/3850288/blog/2049576

这篇关于使用卓正PageOffice--Word文档全文检索的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/760752

相关文章

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

Pandas使用AdaBoost进行分类的实现

《Pandas使用AdaBoost进行分类的实现》Pandas和AdaBoost分类算法,可以高效地进行数据预处理和分类任务,本文主要介绍了Pandas使用AdaBoost进行分类的实现,具有一定的参... 目录什么是 AdaBoost?使用 AdaBoost 的步骤安装必要的库步骤一:数据准备步骤二:模型

使用Pandas进行均值填充的实现

《使用Pandas进行均值填充的实现》缺失数据(NaN值)是一个常见的问题,我们可以通过多种方法来处理缺失数据,其中一种常用的方法是均值填充,本文主要介绍了使用Pandas进行均值填充的实现,感兴趣的... 目录什么是均值填充?为什么选择均值填充?均值填充的步骤实际代码示例总结在数据分析和处理过程中,缺失数

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

《解决Maven项目idea找不到本地仓库jar包问题以及使用mvninstall:install-file》:本文主要介绍解决Maven项目idea找不到本地仓库jar包问题以及使用mvnin... 目录Maven项目idea找不到本地仓库jar包以及使用mvn install:install-file基

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

C 语言中enum枚举的定义和使用小结

《C语言中enum枚举的定义和使用小结》在C语言里,enum(枚举)是一种用户自定义的数据类型,它能够让你创建一组具名的整数常量,下面我会从定义、使用、特性等方面详细介绍enum,感兴趣的朋友一起看... 目录1、引言2、基本定义3、定义枚举变量4、自定义枚举常量的值5、枚举与switch语句结合使用6、枚

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

Android实现在线预览office文档的示例详解

《Android实现在线预览office文档的示例详解》在移动端展示在线Office文档(如Word、Excel、PPT)是一项常见需求,这篇文章为大家重点介绍了两种方案的实现方法,希望对大家有一定的... 目录一、项目概述二、相关技术知识三、实现思路3.1 方案一:WebView + Office Onl

使用Python实现图像LBP特征提取的操作方法

《使用Python实现图像LBP特征提取的操作方法》LBP特征叫做局部二值模式,常用于纹理特征提取,并在纹理分类中具有较强的区分能力,本文给大家介绍了如何使用Python实现图像LBP特征提取的操作方... 目录一、LBP特征介绍二、LBP特征描述三、一些改进版本的LBP1.圆形LBP算子2.旋转不变的LB