IK-analyzer添加搜狗词库

2024-01-18 14:18
文章标签 ik analyzer 搜狗 词库

本文主要是介绍IK-analyzer添加搜狗词库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1:从http://pinyin.sogou.com/dict/下载选择的细胞词库

2:用深蓝词库转换工具提取出txt文本

3:用ultraedit将txt文本保存为无bom utf-8格式,dos换行

4:在solr的WEB-INF下创建classes目录

5:将utf-8格式的txt词库拷贝到solr的WEB-INF/classes目录

6:在WEB-INF/classes创建IKAnalyzer.cfg.xml,内容:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer ????</comment>
        <!--????????????????
        <entry key="ext_dict">/mydict.dic;</entry>
        -->
         <!--???????????????????-->
        <entry key="ext_dict">/mydict.dic;</entry>
        <entry key="ext_stopwords">/ext_stopword.dic</entry>

</properties>



这篇关于IK-analyzer添加搜狗词库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/619255

相关文章

【docker】基于docker-compose 安装elasticsearch + kibana + ik分词器(8.10.4版本)

记录下,使用 docker-compose 安装 Elasticsearch 和 Kibana,并配置 IK 分词器,你可以按照以下步骤进行。此过程适用于 Elasticsearch 和 Kibana 8.10.4 版本。 安装 首先,在你的工作目录下创建一个 docker-compose.yml 文件,用于配置 Elasticsearch 和 Kibana 的服务。 version:

搜狗浏览器打开CSDN博客排版错乱问题解决

之前发生过几次,不知道什么原因。 今天一直用着好好的,打开一个csdn连接,显示404,博文被删除了,于是就用百度快照打开试试,百度快照打开显示的排版很乱也没找到有用信息。 后面再浏览CSDN博客就排版错乱,显示一个大大二维码图片。 尝试删除IE缓存无效,使用谷歌浏览是好的。 基本锁定就是搜狗缓存导致的,于是找如何删除搜狗缓存   清除后恢复正常

【自然语言处理 词库建设】怎样将搜狗的细胞词库scel格式转化成txt格式

搜狗词库:https://pinyin.sogou.com/dict/ 1、先下载搜狗词库到本地,文件格式为.scel后缀 2、利用python3 自动转换成txt python3版本: # -*- coding:utf-8 -*-import structimport os# 由于原代码不适用python3且有大量bug# 以及有函数没有必要使用且一些代码书写不太规范或冗余#在原有

【硬刚ES】ES基础(十二)多字段特性及Mapping中配置自定义Analyzer

本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ES部分补充。

elasticsearch 2.3.4 java API 连接,ik分词器,设置集群节点,创建index,mapping的几种方式

1、默认集群连接 Client client = TransportClient.builder().build().addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName("localhost"), 9300)); 2、自定义集群连接 Settings settings = S

解决linux版搜狗拼音皮肤透明

去官网随便下载一个皮肤,右键以搜狗打开即可

《Linux杂记》Linux系统安装搜狗输入法

在Windows平台和手机平台上大家对搜狗输入法用的比较多,其实搜狗输入法也对Ubuntu有软件包的,搜狗输入法是基于AMD体系架构的,在基于AMD的体系架构都是支持搜狗输入法,对于ARM体系架构搜狗输入法是不支持的,但是可以安装谷歌,请看笔者的其他文章。笔者在这里要讲的是搜狗输入法的安装,接下来笔者就带领大家安装搜狗输入法。 首先给出Linux版本搜狗输入法的下载链接: https://pin

搜狗微信搜索爬虫

文章目录 前言列表采集详情采集 前言 最近在做一个语料采集的项目,其中有涉及到公众号内容采集(非指定公众号而是指定关键词的采集),于是考虑使用搜狗采集,记录一下采集过程 列表采集 打开搜狗页面输入关键词,选择微信,直接搜索,查看F12发现需要的列表内容直接就在DOC文档里,postman验证一下直接URL输入就可以采集到,属于是比较容易的采集类型 详情采集 通过列表采

15、Analyzer分析器之中文分析器的扩展

其实在第五章节里已经有介绍过下面的分析器了,只是没有做例子,今天将下面没有做过例子分析器进行一个例子说明 paoding: 庖丁解牛最新版在  https://code.google.com/p/paoding/  中最多支持Lucene 3.0,且最新提交的代码在 2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。 mmseg4j:最新版已从  http

12、自定义Analyzer实现扩展停用词

自定义Analyzer实现扩展停用词 继承自Analyzer并覆写createComponents(String)方法维护自己的停用词词典重写TokenStreamComponents,选择合适的过滤策略 import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.CharArraySet;