Lucene4.3开发之第五步之融丹筑基(五)

2024-05-15 04:58

本文主要是介绍Lucene4.3开发之第五步之融丹筑基(五),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[b][size=x-large][color=red]本文章允许转载,转载请注明原创地址
[url]http://qindongliang1922.iteye.com/blog/1924608[/url]
[/color][/size][/b]

[b][color=green][size=x-large]排序是对于全文检索来言是一个必不可少的功能,在实际运用中,排序功能能在某些时候给我们带来很大的方便,比如在淘宝,京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品,或者通过排序来找到评论数最高或卖的最好的商品,再比如在Iteye里的博客栏里,每天都会以降序的方式,来显示出最新发出的几篇博客,有了排序,我们就能在某些时候很方便快速的得到某些有效信息,所以说排序功能,无处不在 ^_^。[/size][/color][/b]


[b][color=green][size=x-large]那么,本篇散仙就来看下我们在Lucene中怎么使用其丰富的排序功能。[/size][/color][/b]

[b][color=green][size=x-large]在这之前,我们先来熟悉下lucene中排序的基本知识,在默认情况下,Lucene使用的是以关联性降序的方式为默认的排序方式,这样可以使得我们搜索的结果通常是最优的,因为它会尽可能的使得首先出现的几个结果是与我们搜索的内容最相关,而不需要我们翻页寻找我们最想要的内容,这一点是与数据库相比,是全文检索一个很大的优点。当然,在实际开发中我们也需要根据业务的实际情况来给我们的客户提供多种不同的排序方式。我们先来看下在Lucene中比较特殊的两种基本的排序方式
[/size][/color][/b]
[b][size=x-large]
[table]
|Sort里的属性|SortField里的属性|含义
|Sort.INDEXORDER|SortField.FIELD_DOC|按照索引的顺序进行排序
|Sort.RELEVANCE|SortField.FIELD_SCORE|按照关联性评分进行排序
[/table][/size][/b]

[b][size=x-large]我们再来看几个检索时需要用的方法[/size][/b]

=========SortField类============
//field是排序字段type是排序类型
public SortField(String field, Type type);
//field是排序字段type是排序类型reverse是指定升序还是降序
//reverse 为true是降序 false为升序
public SortField(String field, Type type, boolean reverse)

=========Sort类============
public Sort();//Sort对象构造方法默认是按文档评分排序
public Sort(SortField field);//排序的一个SortField
public Sort(SortField... fields)//排序的多个SortField可以传入一个数组

=========IndexSearche类r========
//query是查询的Query对象 filter是过滤 n返回的数量 sort是排序
search(Query query, Filter filter, int n, Sort sort)
//doDocScores 为true情况下每个命中的结果下都会被评分
//doMaxScore 为true情况下对最大分值的搜索结果进行评分
search(Query query, Filter filter, int n, Sort sort, boolean doDocScores, boolean doMaxScore)



[b][color=green][size=x-large]1,在还没有进行一点排序前我们先来看下索引里的内容,核心代码如下:[/size][/color][/b]

TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000);

[img]http://dl2.iteye.com/upload/attachment/0088/1906/4268c470-9b26-363a-82fb-dc15a1e8ecd9.jpg[/img]
[b][color=green][size=x-large]2,使用默认的关联性评分后,核心代码和运行效果图如下:[/size][/color][/b]

Sort sort=new Sort();//默认使用关联性评分
TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);


[img]http://dl2.iteye.com/upload/attachment/0088/1934/27f1b4ae-9a02-3cf7-8efa-89b31e9003e4.jpg[/img]

[b][color=green][size=x-large]关于上图中乱码字符原因是因为默认排序情况下lucene是不会对搜索结果进行评分操作的,因为评分操作会降低性能,所以关于score的那一列返回的是NAN的字符串,出于格式的需要,散仙在用DecimalFormat类给其评分结果保留2位小数时,因为是一个特殊字符,所以就出现了上图情况。[/size][/color][/b]

[b][color=green][size=x-large]3,按照日期降序排序,,核心代码和运行效果图如下:[/size][/color][/b]
 Sort sort=new Sort(new SortField("date", Type.INT,true));//true为降序排列
TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);


[img]http://dl2.iteye.com/upload/attachment/0088/1940/d316d04b-2474-31f9-8f0c-b5ded55ec0ef.jpg[/img]
[b][color=green][size=x-large]3,按照价格升序排序,,核心代码和运行效果图如下:[/size][/color][/b]
 Sort sort=new Sort(new SortField("price", Type.DOUBLE,false));//false为降序排列
TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);


[img]http://dl2.iteye.com/upload/attachment/0088/1944/061f2aac-e493-3cb8-862b-746c0bf1ed7a.jpg[/img]
[b][color=green][size=x-large]4,多字段排序,按照日期降序的情况下,因为id为7和8的日期相同,所以我们就新增一个排序字段按ename升序排列,,核心代码和运行效果图如下:[/size][/color][/b]

// Sort sort=new Sort(new SortField("date", Type.INT, true),new SortField("ename", Type.STRING, false));
//这两段代码效果一样
Sort sort=new Sort(new SortField[]{new SortField("date", Type.INT, true),new SortField("ename", Type.STRING, false)});
TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);


[img]http://dl2.iteye.com/upload/attachment/0088/1961/f54ef254-5c22-3b08-9e25-169843d6f47e.jpg[/img]
[b][color=green][size=x-large]5,带评分的排序,注意后面两个布尔类型的变量可以控制是否评分,特别是在没有要求需要打分时,建议别开启,大数量时对性能影响较大,检索“编程”得到的结果,默认按评分降序排序,核心代码和运行效果图如下:[/size][/color][/b]
    Sort sort=Sort.RELEVANCE;
TopDocs topDocs=searcher.search(new TermQuery(new Term("bookname", "编程")),null,100,sort,true,true);


[img]http://dl2.iteye.com/upload/attachment/0088/1963/9fdf363b-1c48-3dce-a3c2-02be40597f8e.jpg[/img]
[b][color=green][size=x-large]上面的编程,编程因为在切分时编程的tf出现了2次,所以在查询时有较高的得分,所以排在首位。[/size][/color][/b]

[b][color=green][size=x-large]6,注意几点
(1)排序对一个文档里什么域都没存储,使用字符串排序会排在首位
(2)排序对一个文档里什么域都没存储,使用数字类型排序会默认给其赋值为0进行排序
(3)我们可以对数字类型的null值的文档进行代码控制,可以将其设置为最大,所以将会排在最后面,代码如下
[/size][/color][/b]
 SortField sortField = new SortField("value", SortField.Type.INT);
sortField.setMissingValue(Integer.MAX_VALUE);

[b][size=x-large][color=red]最后声明一点,允许转载,转载请注明原创地址
[url]http://qindongliang1922.iteye.com/blog/1924608[/url],谢谢合作。
[/color][/size][/b]

这篇关于Lucene4.3开发之第五步之融丹筑基(五)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990868

相关文章

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来

Linux_kernel驱动开发11

一、改回nfs方式挂载根文件系统         在产品将要上线之前,需要制作不同类型格式的根文件系统         在产品研发阶段,我们还是需要使用nfs的方式挂载根文件系统         优点:可以直接在上位机中修改文件系统内容,延长EMMC的寿命         【1】重启上位机nfs服务         sudo service nfs-kernel-server resta

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

Vue3项目开发——新闻发布管理系统(六)

文章目录 八、首页设计开发1、页面设计2、登录访问拦截实现3、用户基本信息显示①封装用户基本信息获取接口②用户基本信息存储③用户基本信息调用④用户基本信息动态渲染 4、退出功能实现①注册点击事件②添加退出功能③数据清理 5、代码下载 八、首页设计开发 登录成功后,系统就进入了首页。接下来,也就进行首页的开发了。 1、页面设计 系统页面主要分为三部分,左侧为系统的菜单栏,右侧

v0.dev快速开发

探索v0.dev:次世代开发者之利器 今之技艺日新月异,开发者之工具亦随之进步不辍。v0.dev者,新兴之开发者利器也,迅速引起众多开发者之瞩目。本文将引汝探究v0.dev之基本功能与优势,助汝速速上手,提升开发之效率。 何谓v0.dev? v0.dev者,现代化之开发者工具也,旨在简化并加速软件开发之过程。其集多种功能于一体,助开发者高效编写、测试及部署代码。无论汝为前端开发者、后端开发者

pico2 开发环境搭建-基于ubuntu

pico2 开发环境搭建-基于ubuntu 安装编译工具链下载sdk 和example编译example 安装编译工具链 sudo apt install cmake gcc-arm-none-eabi libnewlib-arm-none-eabi libstdc++-arm-none-eabi-newlib 注意cmake的版本,需要在3.17 以上 下载sdk 和ex