Lucene4.3开发之第四步之脱胎换骨(四)

2024-05-15 04:58

本文主要是介绍Lucene4.3开发之第四步之脱胎换骨(四),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[b][size=x-large]为防止,一些小网站私自盗用原文,请支持原创[/size][/b]
[b][size=x-large]原文永久链接:[url]http://qindongliang1922.iteye.com/blog/1922742[/url][/size][/b]

[b][color=green][size=x-large]前面几章笔者把Lucene基本入门的任督二脉给打通了,从此篇开始,就开始进行Lucene的进阶开发了,那么首先摆在我们面前的第一个必须要解决的问题,就是关于中文分词的问题,因为Lucene毕竟是国外的大牛们开发的,显然会比较侧重英文文章,不过还好,在Lucene的下载包里同步了SmartCN的分词器针对中文发行的,每一次Lucene有新的版本发行,这个包同时更新。[/size][/color][/b]

[b] [size=x-large]笔者比较推荐的中文分词器是IK分词器,在进入正式的讲解之前,我们首先对Lucene里面内置的几个分析器做个了解.[/size][/b]

[b][size=x-large][table]
|分析器类型|基本介绍
|WhitespaceAnalyzer|以空格作为切词标准,不对语汇单元进行其他规范化处理
|SimpleAnalyzer|以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符
|StopAnalyzer|该分析器会去除一些常有a,the,an等等,也可以自定义禁用词
|StandardAnalyzer|Lucene内置的标准分析器,会将语汇单元转成小写形式,并去除停用词及标点符号
|CJKAnalyzer|能对中,日,韩语言进行分析的分词器,对中文支持效果一般。
|SmartChineseAnalyzer|对中文支持稍好,但扩展性差

[/table][/size] [/b]

[b][size=x-large][color=green]评价一个分词器的性能优劣,关键是看它的切词效率以及灵活性,及扩展性,通常情况下一个良好的中文分词器,应该具备扩展词库,禁用词库和同义词库,当然最关键的是还得要与自己的业务符合,因为有些时候我们用不到一些自定义词库,所以选择分词器的时候就可以不考虑这一点。IK官网发布的最新版IK分词器对于Lucene的支持是不错的,但是对于solr的支持就不够好了,需要自己改源码支持solr4.x的版本。笔者使用的另一个IK包是经过一些人修改过的可以支持solr4.3的版本,并对扩展词库,禁用词库,同义词库完全支持,而且在solr里面配置很简单,只需要在schmal.xml进行简单配置,即可使用IK分词器的强大的定制化功能。不过官网上IK作者发布的IK包在lucene里面确都不支持同义词库扩展的功能,如果你想使用,得需要自己修改下源码了,不过即使自己修改扩展同义词也是非常容易的。[/color][/size][/b]


[b][size=x-large]下面笔者给出使用官网最后一版发布的IK在Lucene中做的测试,笔者使用的已经扩展了同义词库部分,后面会给出源码。[/size][/b]

[b][size=x-large][color=green]下面先看第一个纯分词的测试[/color][/size][/b]

package com.ikforlucene;

import java.io.StringReader;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;


public class Test {


public static void main(String[] args)throws Exception {
//下面这个分词器,是经过修改支持同义词的分词器
IKSynonymsAnalyzer analyzer=new IKSynonymsAnalyzer();
String text="三劫散仙是一个菜鸟";
TokenStream ts=analyzer.tokenStream("field", new StringReader(text));
CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);
ts.reset();//重置做准备
while(ts.incrementToken()){
System.out.println(term.toString());
}
ts.end();//
ts.close();//关闭流


}

}

[b][size=x-large]运行结果:[/size][/b]





一个
菜鸟


[b][size=x-large]第二步,测试扩展词库,使三劫为一个词,散仙为一个词,需要在同义词库里添加三劫,散仙(注意是按行读取的),注意保存的格式为UTF-8或无BOM格式即可[/size][/b]

[img]http://dl2.iteye.com/upload/attachment/0088/0383/2f2e9cd8-e921-3885-897e-f4b8e7dabaac.jpg[/img]

[b][size=x-large]添加扩展词库后运行结果如下:[/size][/b]
三劫
散仙

一个
菜鸟


[b][size=x-large][color=green]第三步,测试禁用词库,我们把菜鸟二个字给屏蔽掉,每行一个词,保存格式同上.[/color][/size][/b]

[img]http://dl2.iteye.com/upload/attachment/0088/0375/f56582eb-6418-3449-8a90-1054b64ce589.jpg[/img]
[b][size=x-large]添加禁用词库后运行结果如下:[/size][/b]
三劫
散仙

一个


[b][color=green][size=x-large]最后我们再来测试下,同义词部分,现在笔者把河南人,洛阳人作为"一个"这个词的同义词,添加到同义词库中(笔者在这里仅仅是做一个测试,真正生产环境中的同义词肯定是正式的),注意同义词,也是按行读取的,每行的同义词之间使用逗号分割。[/size][/color][/b]

[img]http://dl2.iteye.com/upload/attachment/0088/0386/796dad6d-e0d9-3cc4-bf06-4b00a3b4095d.jpg[/img]
[b][size=x-large]添加同义词库后运行结果如下:[/size][/b]
三劫
散仙

一个
河南人
洛阳人


[b][color=green][size=x-large]至此,使用IK在Lucene4.3中大部分功能都已测试通过,下面给出扩展同义词部分的源码,有兴趣的道友们,可以参照借鉴下。
[/size][/color][/b]
package com.ikforlucene;

import java.io.IOException;
import java.io.Reader;
import java.util.HashMap;
import java.util.Map;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.synonym.SynonymFilterFactory;
import org.apache.solr.core.SolrResourceLoader;
import org.wltea.analyzer.lucene.IKTokenizer;
/**
* 可以加载同义词库的Lucene
* 专用IK分词器
*
*
* */
public class IKSynonymsAnalyzer extends Analyzer {


@Override
protected TokenStreamComponents createComponents(String arg0, Reader arg1) {

Tokenizer token=new IKTokenizer(arg1, true);//开启智能切词

Map<String, String> paramsMap=new HashMap<String, String>();
paramsMap.put("luceneMatchVersion", "LUCENE_43");
paramsMap.put("synonyms", "E:\\同义词\\synonyms.txt");
SynonymFilterFactory factory=new SynonymFilterFactory(paramsMap);
SolrResourceLoader loader= new SolrResourceLoader("");
try {
factory.inform(loader);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

return new TokenStreamComponents(token, factory.create(token));
}




}

[b][color=green][size=x-large]关于同义词部分的使用,各位道友,可以先去官网上下载源码,然后将此同义词扩展部分放进去即可,非常简单方便。[/size][/color][/b]

这篇关于Lucene4.3开发之第四步之脱胎换骨(四)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990867

相关文章

基于Qt开发一个简单的OFD阅读器

《基于Qt开发一个简单的OFD阅读器》这篇文章主要为大家详细介绍了如何使用Qt框架开发一个功能强大且性能优异的OFD阅读器,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 目录摘要引言一、OFD文件格式解析二、文档结构解析三、页面渲染四、用户交互五、性能优化六、示例代码七、未来发展方向八、结论摘要

在 VSCode 中配置 C++ 开发环境的详细教程

《在VSCode中配置C++开发环境的详细教程》本文详细介绍了如何在VisualStudioCode(VSCode)中配置C++开发环境,包括安装必要的工具、配置编译器、设置调试环境等步骤,通... 目录如何在 VSCode 中配置 C++ 开发环境:详细教程1. 什么是 VSCode?2. 安装 VSCo

C#图表开发之Chart详解

《C#图表开发之Chart详解》C#中的Chart控件用于开发图表功能,具有Series和ChartArea两个重要属性,Series属性是SeriesCollection类型,包含多个Series对... 目录OverviChina编程ewSeries类总结OverviewC#中,开发图表功能的控件是Char

鸿蒙开发搭建flutter适配的开发环境

《鸿蒙开发搭建flutter适配的开发环境》文章详细介绍了在Windows系统上如何创建和运行鸿蒙Flutter项目,包括使用flutterdoctor检测环境、创建项目、编译HAP包以及在真机上运... 目录环境搭建创建运行项目打包项目总结环境搭建1.安装 DevEco Studio NEXT IDE

Python开发围棋游戏的实例代码(实现全部功能)

《Python开发围棋游戏的实例代码(实现全部功能)》围棋是一种古老而复杂的策略棋类游戏,起源于中国,已有超过2500年的历史,本文介绍了如何用Python开发一个简单的围棋游戏,实例代码涵盖了游戏的... 目录1. 围棋游戏概述1.1 游戏规则1.2 游戏设计思路2. 环境准备3. 创建棋盘3.1 棋盘类

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来