Solr6+中文分词(mmseg4j)

2024-05-13 03:08
文章标签 中文 分词 mmseg4j solr6

本文主要是介绍Solr6+中文分词(mmseg4j),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在搭建Solr服务器的基础上(http://blog.csdn.net/u010379996/article/details/51790743)

1. 下载mmseg4j包和字典(.dic)

2.  搭建mmseg4j中文分词

在Solr_Home创建dic文件夹,并把mmseg4j的.dic文件复制到此

下载mmseg4j-solr-2.3.0.jar, mmseg4j-core-1.10.0.jar,并复制到Solr项目的lib中

修改managed-schema(config目录)文件
添加:     <fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100">
   <analyzer>
     <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic文件夹的绝对路径"/>
   </analyzer>
 </fieldType>
 <fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
   <analyzer>
     <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic文件夹的绝对路径"/>
   </analyzer>
 </fieldType>
 <fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100">
   <analyzer>
     <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic文件夹的绝对路径"/>
   </analyzer>
 </fieldType
>


这篇关于Solr6+中文分词(mmseg4j)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/984512

相关文章

2024.6.24 IDEA中文乱码问题(服务器 控制台 TOMcat)实测已解决

1.问题产生原因: 1.文件编码不一致:如果文件的编码方式与IDEA设置的编码方式不一致,就会产生乱码。确保文件和IDEA使用相同的编码,通常是UTF-8。2.IDEA设置问题:检查IDEA的全局编码设置和项目编码设置是否正确。3.终端或控制台编码问题:如果你在终端或控制台看到乱码,可能是终端的编码设置问题。确保终端使用的是支持你的文件的编码方式。 2.解决方案: 1.File -> S

android 中文api (84) —— TrafficStats

android 中文api (84) —— TrafficStats   前言   本章内容是android.net.TrafficStats,译为"流量统计",版本为Android 2.3 r1 ,翻译参考“Android开发网”的这篇文章,欢迎访问他们的网址:“http://android123.com.cn/”。期待你一起参与Android API 的中文翻译,联系我over140@g

在 Oracle Linux 8.9 上安装中文和日文字体的完整指南

在 Oracle Linux 8.9 上安装中文和日文字体的完整指南 在 Oracle Linux 8.9 上安装中文和日文字体的完整指南前提条件安装步骤1. 更新系统2. 安装字体包安装中文字体安装日文字体 3. 安装字体配置工具4. 更新字体缓存5. 验证安装 可能遇到的问题及解决方案结语 在 Oracle Linux 8.9 上安装中文和日文字体的完整指南 在使用 Ora

通过bootstrap-fileupload上传文件时js库修改为默认中文的方法

打开fileinput.js文件,修改如下几处原来的en为zh: 1、3065行                lang = options.language || self.data('language') || 'zh', opts; 2、3070行               if (lang !== 'zh' && !isEmpty($.fn.fileinputLocales[lang

Linux配置中文环境

文章目录 前言中文语言包中文输入法中文字体 前言 在Linux系统中修改为中文环境,通常涉及以下几个步骤: 中文语言包 更新源列表: 更新系统的软件源列表和语言环境设置,确保可以安装所需的语言包。 sudo apt updatesudo apt install locales 安装中文语言包: 安装中文语言包,以支持中文显示和输入。在大多数基于Debian的系统(

js 对 select 中的 option 进行中文排序问题

从数据库中读取出 select 列表的 option 值是按照数据库中的顺序进行排列的,有时需要对 optiion 的中文按照字母序进行排序,这时需要注意的问题是  option 的 text 值 和 value 值要同时排序。这样提交 form 表单将数据提交到数据库时就能按照 正确的 value 值进行插入数据了。 下面是一个写好的  sortOptions(oSel) 对 option进行

[SpringMVC] @ResponseBody 返回中文乱码

参考:解决SpringMVC的@ResponseBody返回中文乱码 原理见: SpringMVC 中 HTTP 请求与响应原理 1、现象 客户端代码 function fToSubmitNormal(e) {var oForm = {};oForm["labelname"] = "中文标签";oForm["status"] = 0;$.ajax({url: e.data.url

中文字符编码之GBK,UTF-16和UTF-8

编程中经常会遇到这三种字符编码形式的相互转换问题,以至于许多第三方的库不明原因的调用失败,其实很多都是由于第三方库支持的是utf-8而不是windows默认支持的utf-16导致的。 下面介绍一下windows系统下常见的这三种字符编码方式。 GB2312 是我们国家自己国标的汉字编码字符集,该字符集以一个16位的2进制数据单元表示一个汉字,所以能够将两个char型数据单元保存一个汉字。

PHPMailer发送的中文内容乱码如何解决

一: PHPMailer sdk 文件中有个设置默认编码的位置: vendor/phpmailer/phpmailer/src/PHPMailer.php 二: 实际业务代码中: require '/sdk/PHPMailer/vendor/autoload.php';$mail = new PHPMailer(true);try {//Server settings$mail-

idea控制台输出中文乱码

网上看了好多教程,都是在idea启动的配置文件中加入编码设置:-Dfile.encoding=utf-8  或者在tomcat启动配置中加入:-Dfile.encoding=utf-8 但是都不生效。 正解如下图:  同样在这里设置:-Dfile.encoding=utf-8,重启idea就可以了。