Lucene4.3开发之插曲之斗转星移

本文主要是介绍Lucene4.3开发之插曲之斗转星移，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

[b][size=x-large]
允许转载，转载请注明原创地址：
[url]http://qindongliang1922.iteye.com/blog/1931191[/url]
谢谢配合 [/size]
[/b]
[b][size=x-large][color=green]散仙在上篇文章中，总结了几个Lucene的特殊的分词需求，以及怎么定制我们自己的Tokenizer和Analyzer用来处理他们，那么本篇我们依旧是分析用户需求（哈哈，也不算是用户需求，群里面(324714439)朋友们提问的问题），然后找到最合适的解决方法。[/color][/size][/b]

[b][size=x-large][color=green]我们先来看下下面的问题，现在我们的索引里有2亿多的数据，那么现在的需求是，把索引里的全部数据，读取然后写入txt文本里，对于这么一个量级的数据，显然是不可能一下子全部读取完的，那得要多大的内存才能够支持下来，是一个很恐怖的内存量，所以就引入散仙今天要给大家介绍的一个功能，Lucene的分页技术。[/color][/size][/b]

[b][size=x-large]在介绍分页之前，我们先来看看上面的那个需求，不用分页的解决办法，
其实在lucene里面，每一个索引都会对应一个不重复的docid，而这一点跟Oralce数据库的伪列rownum一样，恰恰正是由于这个docid的存在，所以让lucene在海量数据检索时从而拥有更好的性能，我们都知道Oracle数据库在分页时，使用的就是伪列进行分页，那么我的lucene也是一样，既然有一个docid的存在，那么上面的需求就很简单了。[/size][/b]

[b][size=x-large][color=green]方法一:依次根据每个docid获取文档然后写入txt中，这样的以来，就避免了内存不足的缺点，但是这样单条读取的话，速度上可能会慢一点,但能满足需求无可厚非。伪代码如下[/color][/size][/b]

	try{
		directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
		IndexReader  reader=DirectoryReader.open(directory);//读取目录
		IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
		for(int i=0;i<reader.numDocs();i++){//numDocs可能很大
		 Document doc=search.doc(i);//依次获取每个docid对应的Document
		//可以在此部，做个批量操作,加快写入速度
		}  

		 reader.close();//关闭资源
		 directory.close();//关闭连接

		}catch(Exception e){
			e.printStackTrace();
		}

[b][size=x-large][color=green]Lucene的分页，总的来说有两种形式，散仙总结如下图表格。（如果存在不合适之处，欢迎指正！）[/color][/size][/b]
[b][size=x-large]
[table]
|编号|方式|优点|缺点
|1|在ScoresDocs里进行分页|无需再次查询索引，速度很快|在海量数据时，会内存溢出
|2|利用SearchAfter，再次查询分页|适合大批量数据的分页|再次查询，速度相对慢一点，但可以利用缓存弥补
[/table]
[/size][/b]
[b][size=x-large][color=green]从上图我们可以分析出，ScoreDocs适合在数据量不是很大的场景下进行分页，而SearchAfter则都适合，所以，我们要根据自己的业务需求，合理的选出适合自己的分页方式。[/color][/size][/b]

[b][size=x-large][color=green]在我们了解这2中分页技术的优缺点之后，我们再来探讨下上面那个读2亿数据存入txt文本里，在这里，SocreDocs不适合这种场景，当然如果你内存足够大的话，可以尝试下，通用分页分批读取的方式，可以提升我们的写入效率，效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式在本需求上不适合，但是作为示例，下面散仙给出使用ScoreDocs进行分页的代码：[/color][/size][/b]


	try{
		directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
		IndexReader  reader=DirectoryReader.open(directory);//读取目录
		IndexSearcher search=new IndexSearcher(reader);//初始化查询组件


	     TopDocs all=search.search(new MatchAllDocsQuery(), 50000);
	     int offset=0;//起始位置
	     int pageSize=30;//分页的条数
	     int total=30;//结束条数
	     int z=0;
	     while(z<=50){//总分页数
	     System.out.println("==============================");
	     pageScoreDocs(offset,total,search, all.scoreDocs);//调用分页打印
	     offset=(z*pageSize+pageSize);//下一页的位置增量
	     z++;//分页数+1；
	  	   total=offset+pageSize;//下一次的结束分页量
	     }
		 reader.close();//关闭资源
		 directory.close();//关闭连接

		}catch(Exception e){
			e.printStackTrace();
		}

public void pageScoreDocs(int offset,int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{
		//System.out.println("offset:"+offset+"===>"+total);
		for(int i=offset;i<total;i++){
			//System.out.println("i"+i+"==>"+doc.length);
		    if(i>doc.length-1){//当分页的长度数大于总数就停止

		    	break;
		    }else{

		       Document dosc=searcher.doc(doc[i].doc);
			   System.out.println(dosc.get("name"));

		    }
		}

[b][size=x-large][color=green]最后我们来看下使用SearcherAfter进行分页的方式,代码如下:[/color][/size][/b]

	try{
		directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
		IndexReader  reader=DirectoryReader.open(directory);//读取目录
		IndexSearcher search=new IndexSearcher(reader);//初始化查询组件

		 int pageStart=0;
		 ScoreDoc lastBottom=null;//相当于pageSize
		 while(pageStart<10){//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作
			 TopDocs paged=null;
			 paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(),null,30);//查询首次的30条
			 if(paged.scoreDocs.length==0){
				 break;//如果下一页的命中数为0的情况下，循环自动结束
			 }
			 page(search,paged);//分页操作，此步是传到方法里对数据做处理的

			 pageStart+=paged.scoreDocs.length;//下一次分页总在上一次分页的基础上
			 lastBottom=paged.scoreDocs[paged.scoreDocs.length-1];//上一次的总量-1，成为下一次的lastBottom
		 }
		 reader.close();//关闭资源
		 directory.close();//关闭连接

		}catch(Exception e){
			e.printStackTrace();
		}

[b][size=x-large][color=green]至此，我们已经了解了lucene中的分页技术，至于，我们在项目中该如何使用，都要根据我们的实际情况处理，因为分页技术常常会跟其他的，排序，过滤，评分等一些技术结合使用。[/color][/size][/b]

[b][size=x-large]
允许转载，转载请注明原创地址：
[url]http://qindongliang1922.iteye.com/blog/1931191[/url]
谢谢配合 [/size]
[/b]

这篇关于Lucene4.3开发之插曲之斗转星移的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！