Lucene随笔-ThreadState

2024-06-19 20:08

文章标签 随笔 lucene threadstate

本文主要是介绍Lucene随笔-ThreadState，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Lucene 6.5.4

ThreadState在lucene的curd扮演者非常重要的角色。首先，DocumentsWriterPerThreadPool是一个逻辑上的线程池，它实现了类似Java线程池的功能，
在Java的线程池中，新来的一个任务可以从ExecutorService中获得一个线程去处理该任务，而在DocumentsWriterPerThreadPool中，每当IndexWriter要添加文档，会从DocumentsWriterPerThreadPool中获得一个ThreadState去执行，故在多线程（持有相同的IndexWriter对象引用）执行添加文档操作时，每个线程都会获得一个ThreadState对象。简言之，iw里面的dwtp是通过threadstate来获取的。具体可以看一下DocumentWriter的updateDocument函数。

	final ThreadState perThread = flushControl.obtainAndLock();

上面说了每一个ThreadState通常都会有一个DWTP的引用。但是在两种情况下是不包含dwtp的引用的：

情况一：当一个新的添加文档任务来时，DocumentsWriterPerThreadPool中没有可用的ThreadState对象，那么会生成一个新的ThreadState对象，此时新生成的ThreadState对象没有DWPT的引用(个人理解：从源码结构上看ThreadState的构造函数所在的类DocumentsWriterPerThreadPool没有可用的生成一个DWPT对象所需要的参数)

情况二：上文中提到DWPT在执行完添加文档操作后，会收集numDocs跟IndexByteUsed的值，其中IndexByteUsed的值会被累加到一个全局的变量activeBytes（线程共享）中，另外还有一个全局变量deleteRamByteUsed，它描述了被删除文档的信息占用的内存大小（在后面介绍flush的文章中会展开），如果activeBytes与deleteRamByteUsed的和值，以及numDocs 分别超过下面两个变量，那么持有DWPT的ThreadState会被标记为flushPending状态，并且失去该DWPT的引用，随后DWPT执行doFlush操作，将收集到的索引信息生成索引文件：

ramBufferSizeMB：该值描述了索引信息被写入到磁盘前暂时缓存在内存中允许的最大使用内存值
maxBufferedDocs：该值描述了索引信息被写入到磁盘前暂时缓存在内存中允许的文档最大数量，这里注意的是这里指的是一个DWPT允许添加的最大文档数量，在多线程下，可以同时存在多个DWPT，而maxBufferedDocs并不是所有线程的DWPT中添加的文档数量和值

ThreadState定义在DWPTP中，这也是一个很重要的类，每个iw拥有一个DWPTP，用来管理iw拥有的线程，在其中还有两个比较容易困惑的变量。

 private final List<ThreadState> threadStates = new ArrayList<>();private final List<ThreadState> freeList = new ArrayList<>();

当ThreadState执行完添加文档的任务后，它会回到DocumentsWriterPerThreadPool中，等待下次的文档添加操作，通过一个名为freeList的链表来存储。而threadStates则是用来存储所有的threadStates，包括active threadState 以及freeList里面的threadState，同时他只会增加，不会减少。比如在进行主动flush时，会从threadStates链表中回去所有满足条件的dwpt。

threadStates本质时一把锁，在lucene中添加和更新文档与flush时同步操作，假设某个dwpt同时进行文档操作以及flush时，会出现问题。因此这个时候threadStates的作用就体现了。当一个dwpt满足flush需求时，正在进行添加文档的操作，此时会等待文档添加后在进行fulsh。

这篇关于Lucene随笔-ThreadState的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！