Lucene4.3开发之第七步之合体后期(七)

2024-05-15 04:58

本文主要是介绍Lucene4.3开发之第七步之合体后期(七),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[b][color=cyan][size=x-large]转载请注明原创地址:
[url]http://qindongliang1922.iteye.com/blog/1942030[/url]
[/size][/color][/b]


[b][color=green][size=x-large]今天散仙要写的是关于Lucene里面Collector这个东西,暂且称它为收集器吧,先来看下Lucene内置Collector类的继承图。


[img]http://dl2.iteye.com/upload/attachment/0089/3667/f21da706-2882-3eee-bfda-9debf9190edf.jpg[/img]


我们先来回顾下,一个基本的搜索流程是怎么完成的
1,得到一个索引目录Directory(可能基于内存的或者磁盘的)。
2,得到一个DirectoryReader。
3,实例化查询组件IndexSearcher。
4,检索得到TopDoc查询结果集
5,遍历ScoresDocs处理结果


我们看下这个检索的流程,大概可以分这5步,前1,2,3算是准备工作,后面的2步是我们经常需要进行数据处理的地方,那么我们Collector到底工作在哪一步呢?,其实Collector真正的起作用是在3-4步之间的。

那么Collector的作用是干什么的?为什么需要使用Collector?

在这之前先分析下TopDocs这个类,这个类的工作原理,其实在后台使用的也是一个收集器,收收集我们检索的结果,通过TopDocsCollector这个基类下面的2个子类收集器,来收集一次我们检索的命中数据。
所以collector的作用就是收集某些我们需要定制化的结果集,某些情况下使用collector可以可以极大的提升我们程序的性能,通过collector可以让我们对每一个匹配上的文档做一些特有的定制化操作,当然前提是在我们需要使用的情况下。
下面我们来看下collector基类的几个方法
[/size][/color][/b]
[b]
[color=blue][size=x-large]
[table]
|方法|说明
|collect()|检索时,每匹配上一个文档,都会调用此方法
|acceptsDocsOutOfOrder()|测试本collector是否能处理无序到达的docid
|setScorer(Scorer scorer) |处理检索结果的评分
|setNextReader(AtomicReaderContext context) |检索时,在多个索引段结构之间切换的方法
[/table]
[/size][/color]
[/b]
[b][color=indigo][size=x-large]下面我们来看下自定义的一个collector来实现ScoreDoc类的功能,代码如下.[/size][/color][/b]

package com.piaoxuexianjing;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.index.AtomicReaderContext;
import org.apache.lucene.search.Collector;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Scorer;

/**
* @author 三劫散仙
* @version 1.0
*
* 自定义收集器
* 实现评分收集
* **/
public class MyScoreCollector extends Collector {
//private HashMap<String, String> documents=new HashMap<String, String>();
List<ScoreDoc> docs=new ArrayList<ScoreDoc>();
private Scorer scorer;//scorer类
private int docBase;//全局相对段基数


@Override
public boolean acceptsDocsOutOfOrder() {
// TODO Auto-generated method stub
//返回true是允许无次序的ID
//返回false必须是有次序的
return true;
}

@Override
public void collect(int arg0) throws IOException {
/**
* 匹配上一个文档
* 就记录其docid与打分情况
*
* */
docs.add(new ScoreDoc(arg0+docBase,scorer.score()));//
}
// BinaryDocValues names;//字符类型的内置存储
// BinaryDocValues bookNames;//字符类型的内置存储
// BinaryDocValues ids;//字符类型的内置存储
// BinaryDocValues prices;//字符类型的内置存储
// FieldCache.Doubles d ; //数值类型的内置存储
// FieldCache.Ints ints;//数值类型的内置存储
@Override
public void setNextReader(AtomicReaderContext arg0) throws IOException {
this.docBase=arg0.docBase;//记录每个索引段结构的相对位置
}

@Override
public void setScorer(Scorer arg0) throws IOException {
// TODO Auto-generated method stub
this.scorer=arg0;//记录改匹配的打分情况

}




}

[b][size=x-large][color=green]测试类的核心代码[/color][/size][/b]
    //自定义收集器
MyScoreCollector scoreCollector=new MyScoreCollector();
searcher.search(new MatchAllDocsQuery(), scoreCollector);
/**
* 自定义的收集类,实现效果===>ScoreDocs类
* **/
List<ScoreDoc> s=scoreCollector.docs;
for(ScoreDoc sc:s){
System.out.println(sc.doc+"===="+sc.score);
}

[b][size=x-large]输出结果如下[/size][/b]
0====1.0
1====1.0
2====1.0
3====1.0
4====1.0
5====1.0
6====1.0
7====1.0


[b][size=x-large]至此,我们就利用自定义的collector完成了一个简单的收集评分功能,当然我们可以根据自己的业务,来实现各种各样的collector,灵活运用![/size][/b]


[b][color=cyan][size=x-large]转载请注明原创地址:

[url]http://qindongliang1922.iteye.com/blog/1942030[/url]
[/size][/color][/b]

这篇关于Lucene4.3开发之第七步之合体后期(七)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990875

相关文章

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来

Linux_kernel驱动开发11

一、改回nfs方式挂载根文件系统         在产品将要上线之前,需要制作不同类型格式的根文件系统         在产品研发阶段,我们还是需要使用nfs的方式挂载根文件系统         优点:可以直接在上位机中修改文件系统内容,延长EMMC的寿命         【1】重启上位机nfs服务         sudo service nfs-kernel-server resta

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

Vue3项目开发——新闻发布管理系统(六)

文章目录 八、首页设计开发1、页面设计2、登录访问拦截实现3、用户基本信息显示①封装用户基本信息获取接口②用户基本信息存储③用户基本信息调用④用户基本信息动态渲染 4、退出功能实现①注册点击事件②添加退出功能③数据清理 5、代码下载 八、首页设计开发 登录成功后,系统就进入了首页。接下来,也就进行首页的开发了。 1、页面设计 系统页面主要分为三部分,左侧为系统的菜单栏,右侧

v0.dev快速开发

探索v0.dev:次世代开发者之利器 今之技艺日新月异,开发者之工具亦随之进步不辍。v0.dev者,新兴之开发者利器也,迅速引起众多开发者之瞩目。本文将引汝探究v0.dev之基本功能与优势,助汝速速上手,提升开发之效率。 何谓v0.dev? v0.dev者,现代化之开发者工具也,旨在简化并加速软件开发之过程。其集多种功能于一体,助开发者高效编写、测试及部署代码。无论汝为前端开发者、后端开发者

pico2 开发环境搭建-基于ubuntu

pico2 开发环境搭建-基于ubuntu 安装编译工具链下载sdk 和example编译example 安装编译工具链 sudo apt install cmake gcc-arm-none-eabi libnewlib-arm-none-eabi libstdc++-arm-none-eabi-newlib 注意cmake的版本,需要在3.17 以上 下载sdk 和ex