Lucene4.3开发之插曲之斗转星移

2024-05-15 04:58

本文主要是介绍Lucene4.3开发之插曲之斗转星移,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[b][size=x-large]
允许转载,转载请注明原创地址:
[url]http://qindongliang1922.iteye.com/blog/1931191[/url]
谢谢配合 [/size]
[/b]
[b][size=x-large][color=green]散仙在上篇文章中,总结了几个Lucene的特殊的分词需求,以及怎么定制我们自己的Tokenizer和Analyzer用来处理他们,那么本篇我们依旧是分析用户需求(哈哈,也不算是用户需求,群里面(324714439)朋友们提问的问题),然后找到最合适的解决方法。[/color][/size][/b]

[b][size=x-large][color=green]我们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写入txt文本里,对于这么一个量级的数据,显然是不可能一下子全部读取完的,那得要多大的内存才能够支持下来,是一个很恐怖的内存量,所以就引入散仙今天要给大家介绍的一个功能,Lucene的分页技术。[/color][/size][/b]


[b][size=x-large]在介绍分页之前,我们先来看看上面的那个需求,不用分页的解决办法,
其实在lucene里面,每一个索引都会对应一个不重复的docid,而这一点跟Oralce数据库的伪列rownum一样,恰恰正是由于这个docid的存在,所以让lucene在海量数据检索时从而拥有更好的性能,我们都知道Oracle数据库在分页时,使用的就是伪列进行分页,那么我的lucene也是一样,既然有一个docid的存在,那么上面的需求就很简单了。[/size][/b]

[b][size=x-large][color=green]方法一:依次根据每个docid获取文档然后写入txt中,这样的以来,就避免了内存不足的缺点,但是这样单条读取的话,速度上可能会慢一点,但能满足需求无可厚非。伪代码如下[/color][/size][/b]

	try{
directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
IndexReader reader=DirectoryReader.open(directory);//读取目录
IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
for(int i=0;i<reader.numDocs();i++){//numDocs可能很大
Document doc=search.doc(i);//依次获取每个docid对应的Document
//可以在此部,做个批量操作,加快写入速度
}

reader.close();//关闭资源
directory.close();//关闭连接

}catch(Exception e){
e.printStackTrace();
}


[b][size=x-large][color=green]Lucene的分页,总的来说有两种形式,散仙总结如下图表格。(如果存在不合适之处,欢迎指正!)[/color][/size][/b]
[b][size=x-large]
[table]
|编号|方式|优点|缺点
|1|在ScoresDocs里进行分页|无需再次查询索引,速度很快|在海量数据时,会内存溢出
|2|利用SearchAfter,再次查询分页|适合大批量数据的分页|再次查询,速度相对慢一点,但可以利用缓存弥补
[/table]
[/size][/b]
[b][size=x-large][color=green]从上图我们可以分析出,ScoreDocs适合在数据量不是很大的场景下进行分页,而SearchAfter则都适合,所以,我们要根据自己的业务需求,合理的选出适合自己的分页方式。[/color][/size][/b]

[b][size=x-large][color=green]在我们了解这2中分页技术的优缺点之后,我们再来探讨下上面那个读2亿数据存入txt文本里,在这里,SocreDocs不适合这种场景,当然如果你内存足够大的话,可以尝试下,通用分页分批读取的方式,可以提升我们的写入效率,效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式在本需求上不适合,但是作为示例,下面散仙给出使用ScoreDocs进行分页的代码:[/color][/size][/b]

try{
directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
IndexReader reader=DirectoryReader.open(directory);//读取目录
IndexSearcher search=new IndexSearcher(reader);//初始化查询组件


TopDocs all=search.search(new MatchAllDocsQuery(), 50000);
int offset=0;//起始位置
int pageSize=30;//分页的条数
int total=30;//结束条数
int z=0;
while(z<=50){//总分页数
System.out.println("==============================");
pageScoreDocs(offset,total,search, all.scoreDocs);//调用分页打印
offset=(z*pageSize+pageSize);//下一页的位置增量
z++;//分页数+1;
total=offset+pageSize;//下一次的结束分页量
}
reader.close();//关闭资源
directory.close();//关闭连接

}catch(Exception e){
e.printStackTrace();
}


public void pageScoreDocs(int offset,int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{
//System.out.println("offset:"+offset+"===>"+total);
for(int i=offset;i<total;i++){
//System.out.println("i"+i+"==>"+doc.length);
if(i>doc.length-1){//当分页的长度数大于总数就停止

break;
}else{

Document dosc=searcher.doc(doc[i].doc);
System.out.println(dosc.get("name"));

}
}


[b][size=x-large][color=green]最后我们来看下使用SearcherAfter进行分页的方式,代码如下:[/color][/size][/b]

	try{
directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
IndexReader reader=DirectoryReader.open(directory);//读取目录
IndexSearcher search=new IndexSearcher(reader);//初始化查询组件

int pageStart=0;
ScoreDoc lastBottom=null;//相当于pageSize
while(pageStart<10){//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作
TopDocs paged=null;
paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(),null,30);//查询首次的30条
if(paged.scoreDocs.length==0){
break;//如果下一页的命中数为0的情况下,循环自动结束
}
page(search,paged);//分页操作,此步是传到方法里对数据做处理的

pageStart+=paged.scoreDocs.length;//下一次分页总在上一次分页的基础上
lastBottom=paged.scoreDocs[paged.scoreDocs.length-1];//上一次的总量-1,成为下一次的lastBottom
}
reader.close();//关闭资源
directory.close();//关闭连接

}catch(Exception e){
e.printStackTrace();
}


[b][size=x-large][color=green]至此,我们已经了解了lucene中的分页技术,至于,我们在项目中该如何使用,都要根据我们的实际情况处理,因为分页技术常常会跟其他的,排序,过滤,评分等一些技术结合使用。[/color][/size][/b]

[b][size=x-large]
允许转载,转载请注明原创地址:
[url]http://qindongliang1922.iteye.com/blog/1931191[/url]
谢谢配合 [/size]
[/b]

这篇关于Lucene4.3开发之插曲之斗转星移的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990871

相关文章

基于Python开发电脑定时关机工具

《基于Python开发电脑定时关机工具》这篇文章主要为大家详细介绍了如何基于Python开发一个电脑定时关机工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 简介2. 运行效果3. 相关源码1. 简介这个程序就像一个“忠实的管家”,帮你按时关掉电脑,而且全程不需要你多做

Java中的Opencv简介与开发环境部署方法

《Java中的Opencv简介与开发环境部署方法》OpenCV是一个开源的计算机视觉和图像处理库,提供了丰富的图像处理算法和工具,它支持多种图像处理和计算机视觉算法,可以用于物体识别与跟踪、图像分割与... 目录1.Opencv简介Opencv的应用2.Java使用OpenCV进行图像操作opencv安装j

基于Qt开发一个简单的OFD阅读器

《基于Qt开发一个简单的OFD阅读器》这篇文章主要为大家详细介绍了如何使用Qt框架开发一个功能强大且性能优异的OFD阅读器,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 目录摘要引言一、OFD文件格式解析二、文档结构解析三、页面渲染四、用户交互五、性能优化六、示例代码七、未来发展方向八、结论摘要

在 VSCode 中配置 C++ 开发环境的详细教程

《在VSCode中配置C++开发环境的详细教程》本文详细介绍了如何在VisualStudioCode(VSCode)中配置C++开发环境,包括安装必要的工具、配置编译器、设置调试环境等步骤,通... 目录如何在 VSCode 中配置 C++ 开发环境:详细教程1. 什么是 VSCode?2. 安装 VSCo

C#图表开发之Chart详解

《C#图表开发之Chart详解》C#中的Chart控件用于开发图表功能,具有Series和ChartArea两个重要属性,Series属性是SeriesCollection类型,包含多个Series对... 目录OverviChina编程ewSeries类总结OverviewC#中,开发图表功能的控件是Char

鸿蒙开发搭建flutter适配的开发环境

《鸿蒙开发搭建flutter适配的开发环境》文章详细介绍了在Windows系统上如何创建和运行鸿蒙Flutter项目,包括使用flutterdoctor检测环境、创建项目、编译HAP包以及在真机上运... 目录环境搭建创建运行项目打包项目总结环境搭建1.安装 DevEco Studio NEXT IDE

Python开发围棋游戏的实例代码(实现全部功能)

《Python开发围棋游戏的实例代码(实现全部功能)》围棋是一种古老而复杂的策略棋类游戏,起源于中国,已有超过2500年的历史,本文介绍了如何用Python开发一个简单的围棋游戏,实例代码涵盖了游戏的... 目录1. 围棋游戏概述1.1 游戏规则1.2 游戏设计思路2. 环境准备3. 创建棋盘3.1 棋盘类

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设