本文主要是介绍Lucene随笔-聊聊IndexWriter,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Lucene版本:6.5.1
Package: org.apache.lucene.index;
IndexWriter示例
这里以"hello world"的索引过程为例,探究以下IndexWriter的原理:
- doc1:索引文件。
- path: 索引相关的文件所存放的文件夹位置。
IndexWriter的大致过程如下:
- 首先创建IndexWriter。
- 创建需要索引的文档。
- 通过IndexWriter将文档写入。
- 提交以及关闭IndexWriter。
String doc1 = "hello world";String path = "pathFile";// 创建IndexWriterDirectory d = FSDirectory.open(Paths.get(PATH));IndexWriterConfig conf = new IndexWriterConfig(new SimpleAnalyzer());IndexWriter indexWriter = new IndexWriter(d, conf);// 把要创建的索引的文本数据放入Document中Document ducument1 = new Document();ducument1.add(new TextField("id", "1", Field.Store.YES));// 通过IndexWriter把Document写入indexWriter.addDocument(ducument1);// 调用commit函数将数据组合成segment,这个时候数据才能被检索indexWriter.commit();indexWriter.close();
整个查询流程总结如下:
- 初始化:初始化IndexWriter必要的两个元素是Directory和IndexWriterConfig,Directory是Lucene中数据持久层的抽象接口,通过这层接口可以实现很多不同类型的数据持久层,例如本地文件系统、网络文件系统、数据库或者是分布式文件系统。这里lucene里面说明了采用NFS的模式相对于本地文件系统会导致性能下降。
- 构造文档:Lucene中文档由Document表示,Document由Field构成。
- 写入文档:通过IndexWriter的addDocument函数写入文档,写入时同时根据FieldType创建不同的索引。
- 提交刷新文档:当数据写入后并不是立即搜索的,需要调用commit函数,这时候会手动出发一次flush才能将数据组织成segment实现可检索。
IndexWriter创建
Class IndexWriterConfig
IndexWriterConfig里面包含了IndexWriter的配置情况,包括索引以何种形式写入、分析器的类型等等。
注意:用这个配置对象创建好IndexWriter对象后,再修改这个配置对象的配置信息不会对IndexWriter对象起作用。如要在indexWriter使用过程中修改它的配置信息,通过 indexWriter的getConfig()方法获得 LiveIndexWriterConfig 对象,在这个对象中可查看该IndexWriter使用的配置信息,可进行少量的配置修改。
其中部分的核心参数如下:
- OpenMode: IndexWriter的打开方式,包含了三种模式(CREATE, APPEND, CREATE, CREATE_OR_APPEND), CREATE表示新建或者重写一个index;APPEND表示打开一个存在的index;CREATE_APPEND表示
- IndexDeletionPolicy:Lucene开放对commit point的管理,通过对commit point的管理可以实现例如snapshot等功能。Lucene默认配置的DeletionPolicy,只会保留最新的一个commit point。
- Similarity:搜索的核心是相关性,Similarity是相关性算法的抽象接口,Lucene默认实现了TF-IDF和BM25算法。相关性计算在数据写入和搜索时都会发生,数据写入时的相关性计算称为Index-time boosting,计算Normalizaiton并写入索引,搜索时的相关性计算称为query-time boosting。
- MergePolicy:Lucene内部数据写入会产生很多Segment,查询时会对多个Segment查询并合并结果。所以Segment的数量一定程度上会影响查询的效率,所以需要对Segment进行合并,合并的过程就称为Merge,而何时触发Merge由MergePolicy决定。
- MergeScheduler:当MergePolicy触发Merge后,执行Merge会由MergeScheduler来管理。Merge通常是比较耗CPU和IO的过程,MergeScheduler提供了对Merge过程定制管理的能力。
- Codec:Codec可以说是Lucene中最核心的部分,定义了Lucene内部所有类型索引的Encoder和Decoder。Lucene在Config这一层将Codec配置化,主要目的是提供对不同版本数据的处理能力。对于Lucene用户来说,这一层的定制需求通常较少,能玩Codec的通常都是顶级玩家了。
- IndexerThreadPool:管理IndexWriter内部索引线程(DocumentsWriterPerThread)池,这也是Lucene内部定制资源管理的一部分。
- FlushPolicy:FlushPolicy决定了In-memory buffer何时被flush,默认的实现会根据RAM大小(默认16mb)和文档个数来判断Flush的时机,FlushPolicy会在每次文档add/update/delete时调用判定。
- MaxBufferedDoc:Lucene提供的默认FlushPolicy的实现FlushByRamOrCountsPolicy中允许DocumentsWriterPerThread使用的最大文档数上限,超过则触发Flush。
- RAMBufferSizeMB:Lucene提供的默认FlushPolicy的实现FlushByRamOrCountsPolicy中允许DocumentsWriterPerThread使用的最大内存上限,超过则触发flush。
- RAMPerThreadHardLimitMB:除了FlushPolicy能决定Flush外,Lucene还会有一个指标强制限制DocumentsWriterPerThread占用的内存大小,当超过阈值则强制flush, 默认为1945MB。
- Analyzer:即分词器,这个通常是定制化最多的,特别是针对不同的语言,默认的初始化函数使用的是StandardAnalyzer分析器。
Class IndexWriter
在建立IndexWriter时候,需要设定Directory 与IndexWriterConfig 。其中Directory 为索引保存的文件,而IndexWriterConfig则是indexwriter的配置情况,其中IndexWriter主要提供的核心API如下:
- addDocument:比较纯粹的一个API,就是向Lucene内新增一个文档。Lucene内部没有主键索引,所有新增文档都会被认为一个新的文档,分配一个独立的docId。
- updateDocuments:更新文档,但是和数据库的更新不太一样。数据库的更新是查询后更新,Lucene的更新是查询后删除再新增。流程是先delete by term,后add document。但是这个流程又和直接先调用delete后调用add效果不一样,只有update能够保证在Thread内部删除和新增保证原子性,详细流程在下一章节会细说。
- deleteDocument:删除文档,支持两种类型删除,by term和by query。在IndexWriter内部这两种删除的流程不太一样,在下一章节再细说。
- flush:触发强制flush,将所有DWPT的In-memory buffer flush成segment文件,这个动作可以清理内存,强制对数据做持久化。
- prepareCommit/commit/rollback:commit后数据才可被搜索,commit是一个二阶段操作,prepareCommit是二阶段操作的第一个阶段,也可以通过调用commit一步完成,rollback提供了回滚到last commit的操作。
maybeMerge/forceMerge:maybeMerge触发一次MergePolicy的判定,而forceMerge则触发一次强制merge。
Document创建
要索引的数据记录、文档在lucene中的表示,是索引、搜索的基本单元。一个Document由多个字段Field构成。IndexWriter按加入的顺序为Document指定一个递增的id(从0开始),称为文档id。反向索引中存储的是这个id,文档存储中正向索引也是这个id。 业务数据的主键id只是文档的一个字段。
Document主要由一组IndexableFields构成,除了提供添加和删除的接口外,在Doc内部提供了各种API用于获取Doc内部的Fields。
Class IndexableField
其为一个接口,包含了字段名,字段值,字段类型。
public interface IndexableField {// field名字String name();// 字段类型IndexableFieldType fieldType();// 下面的API都是获取各种字段值的接口。TokenStream tokenStream(Analyzer var1, TokenStream var2);/** @deprecated */@Deprecatedfloat boost();BytesRef binaryValue();String stringValue();Reader readerValue();Number numericValue();
}
其中字段类型主要有以下几个内容:
- stored:是否存储
- tokenized:是否分词。
- omitNorms:是否忽略标准化。
- indexOptions:如何索引。
- storeTermVectors:是否存储词项向量。
- storeTermVectorOffset: 词项向量中是否存储偏移量。
- storeTermVectorPositions: 词项向量中是否存储偏位置。
- storeTermVectorPaykoads: 词项向量中是否存储偏附加信息。
Lucene预定义的字段字类
- TextField:会自动被索引和分词的字段。一般被用在文章的正文部分。
- StringField:会被索引,但是不会被分词,即会被当作一个完整的token处理,一般用在“国家”或者“ID”。
- IntPoint/LongPoint/FloatPoint/DoublePoint:indexed for exact/range queries.
- SortedDocValuesField
- SortedSetDocValuesField
- NumericDocValuesField
- SortedNumericDocValuesField
- SortedField: 一个默认会被存储的Field。
这篇关于Lucene随笔-聊聊IndexWriter的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!