Lucene4.3开发之第四步之脱胎换骨(四)

2024-05-15 04:58

本文主要是介绍Lucene4.3开发之第四步之脱胎换骨(四),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[b][size=x-large]为防止,一些小网站私自盗用原文,请支持原创[/size][/b]
[b][size=x-large]原文永久链接:[url]http://qindongliang1922.iteye.com/blog/1922742[/url][/size][/b]

[b][color=green][size=x-large]前面几章笔者把Lucene基本入门的任督二脉给打通了,从此篇开始,就开始进行Lucene的进阶开发了,那么首先摆在我们面前的第一个必须要解决的问题,就是关于中文分词的问题,因为Lucene毕竟是国外的大牛们开发的,显然会比较侧重英文文章,不过还好,在Lucene的下载包里同步了SmartCN的分词器针对中文发行的,每一次Lucene有新的版本发行,这个包同时更新。[/size][/color][/b]

[b] [size=x-large]笔者比较推荐的中文分词器是IK分词器,在进入正式的讲解之前,我们首先对Lucene里面内置的几个分析器做个了解.[/size][/b]

[b][size=x-large][table]
|分析器类型|基本介绍
|WhitespaceAnalyzer|以空格作为切词标准,不对语汇单元进行其他规范化处理
|SimpleAnalyzer|以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符
|StopAnalyzer|该分析器会去除一些常有a,the,an等等,也可以自定义禁用词
|StandardAnalyzer|Lucene内置的标准分析器,会将语汇单元转成小写形式,并去除停用词及标点符号
|CJKAnalyzer|能对中,日,韩语言进行分析的分词器,对中文支持效果一般。
|SmartChineseAnalyzer|对中文支持稍好,但扩展性差

[/table][/size] [/b]

[b][size=x-large][color=green]评价一个分词器的性能优劣,关键是看它的切词效率以及灵活性,及扩展性,通常情况下一个良好的中文分词器,应该具备扩展词库,禁用词库和同义词库,当然最关键的是还得要与自己的业务符合,因为有些时候我们用不到一些自定义词库,所以选择分词器的时候就可以不考虑这一点。IK官网发布的最新版IK分词器对于Lucene的支持是不错的,但是对于solr的支持就不够好了,需要自己改源码支持solr4.x的版本。笔者使用的另一个IK包是经过一些人修改过的可以支持solr4.3的版本,并对扩展词库,禁用词库,同义词库完全支持,而且在solr里面配置很简单,只需要在schmal.xml进行简单配置,即可使用IK分词器的强大的定制化功能。不过官网上IK作者发布的IK包在lucene里面确都不支持同义词库扩展的功能,如果你想使用,得需要自己修改下源码了,不过即使自己修改扩展同义词也是非常容易的。[/color][/size][/b]


[b][size=x-large]下面笔者给出使用官网最后一版发布的IK在Lucene中做的测试,笔者使用的已经扩展了同义词库部分,后面会给出源码。[/size][/b]

[b][size=x-large][color=green]下面先看第一个纯分词的测试[/color][/size][/b]

package com.ikforlucene;

import java.io.StringReader;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;


public class Test {


public static void main(String[] args)throws Exception {
//下面这个分词器,是经过修改支持同义词的分词器
IKSynonymsAnalyzer analyzer=new IKSynonymsAnalyzer();
String text="三劫散仙是一个菜鸟";
TokenStream ts=analyzer.tokenStream("field", new StringReader(text));
CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);
ts.reset();//重置做准备
while(ts.incrementToken()){
System.out.println(term.toString());
}
ts.end();//
ts.close();//关闭流


}

}

[b][size=x-large]运行结果:[/size][/b]





一个
菜鸟


[b][size=x-large]第二步,测试扩展词库,使三劫为一个词,散仙为一个词,需要在同义词库里添加三劫,散仙(注意是按行读取的),注意保存的格式为UTF-8或无BOM格式即可[/size][/b]

[img]http://dl2.iteye.com/upload/attachment/0088/0383/2f2e9cd8-e921-3885-897e-f4b8e7dabaac.jpg[/img]

[b][size=x-large]添加扩展词库后运行结果如下:[/size][/b]
三劫
散仙

一个
菜鸟


[b][size=x-large][color=green]第三步,测试禁用词库,我们把菜鸟二个字给屏蔽掉,每行一个词,保存格式同上.[/color][/size][/b]

[img]http://dl2.iteye.com/upload/attachment/0088/0375/f56582eb-6418-3449-8a90-1054b64ce589.jpg[/img]
[b][size=x-large]添加禁用词库后运行结果如下:[/size][/b]
三劫
散仙

一个


[b][color=green][size=x-large]最后我们再来测试下,同义词部分,现在笔者把河南人,洛阳人作为"一个"这个词的同义词,添加到同义词库中(笔者在这里仅仅是做一个测试,真正生产环境中的同义词肯定是正式的),注意同义词,也是按行读取的,每行的同义词之间使用逗号分割。[/size][/color][/b]

[img]http://dl2.iteye.com/upload/attachment/0088/0386/796dad6d-e0d9-3cc4-bf06-4b00a3b4095d.jpg[/img]
[b][size=x-large]添加同义词库后运行结果如下:[/size][/b]
三劫
散仙

一个
河南人
洛阳人


[b][color=green][size=x-large]至此,使用IK在Lucene4.3中大部分功能都已测试通过,下面给出扩展同义词部分的源码,有兴趣的道友们,可以参照借鉴下。
[/size][/color][/b]
package com.ikforlucene;

import java.io.IOException;
import java.io.Reader;
import java.util.HashMap;
import java.util.Map;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.synonym.SynonymFilterFactory;
import org.apache.solr.core.SolrResourceLoader;
import org.wltea.analyzer.lucene.IKTokenizer;
/**
* 可以加载同义词库的Lucene
* 专用IK分词器
*
*
* */
public class IKSynonymsAnalyzer extends Analyzer {


@Override
protected TokenStreamComponents createComponents(String arg0, Reader arg1) {

Tokenizer token=new IKTokenizer(arg1, true);//开启智能切词

Map<String, String> paramsMap=new HashMap<String, String>();
paramsMap.put("luceneMatchVersion", "LUCENE_43");
paramsMap.put("synonyms", "E:\\同义词\\synonyms.txt");
SynonymFilterFactory factory=new SynonymFilterFactory(paramsMap);
SolrResourceLoader loader= new SolrResourceLoader("");
try {
factory.inform(loader);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

return new TokenStreamComponents(token, factory.create(token));
}




}

[b][color=green][size=x-large]关于同义词部分的使用,各位道友,可以先去官网上下载源码,然后将此同义词扩展部分放进去即可,非常简单方便。[/size][/color][/b]

这篇关于Lucene4.3开发之第四步之脱胎换骨(四)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990867

相关文章

Python通过模块化开发优化代码的技巧分享

《Python通过模块化开发优化代码的技巧分享》模块化开发就是把代码拆成一个个“零件”,该封装封装,该拆分拆分,下面小编就来和大家简单聊聊python如何用模块化开发进行代码优化吧... 目录什么是模块化开发如何拆分代码改进版:拆分成模块让模块更强大:使用 __init__.py你一定会遇到的问题模www.

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

使用Python开发一个简单的本地图片服务器

《使用Python开发一个简单的本地图片服务器》本文介绍了如何结合wxPython构建的图形用户界面GUI和Python内建的Web服务器功能,在本地网络中搭建一个私人的,即开即用的网页相册,文中的示... 目录项目目标核心技术栈代码深度解析完整代码工作流程主要功能与优势潜在改进与思考运行结果总结你是否曾经

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

利用Python开发Markdown表格结构转换为Excel工具

《利用Python开发Markdown表格结构转换为Excel工具》在数据管理和文档编写过程中,我们经常使用Markdown来记录表格数据,但它没有Excel使用方便,所以本文将使用Python编写一... 目录1.完整代码2. 项目概述3. 代码解析3.1 依赖库3.2 GUI 设计3.3 解析 Mark

利用Go语言开发文件操作工具轻松处理所有文件

《利用Go语言开发文件操作工具轻松处理所有文件》在后端开发中,文件操作是一个非常常见但又容易出错的场景,本文小编要向大家介绍一个强大的Go语言文件操作工具库,它能帮你轻松处理各种文件操作场景... 目录为什么需要这个工具?核心功能详解1. 文件/目录存javascript在性检查2. 批量创建目录3. 文件

基于Python开发批量提取Excel图片的小工具

《基于Python开发批量提取Excel图片的小工具》这篇文章主要为大家详细介绍了如何使用Python中的openpyxl库开发一个小工具,可以实现批量提取Excel图片,有需要的小伙伴可以参考一下... 目前有一个需求,就是批量读取当前目录下所有文件夹里的Excel文件,去获取出Excel文件中的图片,并

基于Python开发PDF转PNG的可视化工具

《基于Python开发PDF转PNG的可视化工具》在数字文档处理领域,PDF到图像格式的转换是常见需求,本文介绍如何利用Python的PyMuPDF库和Tkinter框架开发一个带图形界面的PDF转P... 目录一、引言二、功能特性三、技术架构1. 技术栈组成2. 系统架构javascript设计3.效果图

基于Python开发PDF转Doc格式小程序

《基于Python开发PDF转Doc格式小程序》这篇文章主要为大家详细介绍了如何基于Python开发PDF转Doc格式小程序,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 用python实现PDF转Doc格式小程序以下是一个使用Python实现PDF转DOC格式的GUI程序,采用T