IK-analyzer添加搜狗词库

2024-01-18 14:18

文章标签 ik analyzer 搜狗词库

本文主要是介绍IK-analyzer添加搜狗词库，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1：从http://pinyin.sogou.com/dict/下载选择的细胞词库

2：用深蓝词库转换工具提取出txt文本

3：用ultraedit将txt文本保存为无bom utf-8格式，dos换行

4：在solr的WEB-INF下创建classes目录

5：将utf-8格式的txt词库拷贝到solr的WEB-INF/classes目录

6：在WEB-INF/classes创建IKAnalyzer.cfg.xml，内容：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer ????</comment>
        
         
        <entry key="ext_dict">/mydict.dic;</entry>
        <entry key="ext_stopwords">/ext_stopword.dic</entry>

</properties>

这篇关于IK-analyzer添加搜狗词库的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/619255。 23002807@qq.com

相关文章

【docker】基于docker-compose 安装elasticsearch + kibana + ik分词器(8.10.4版本)

【docker】基于docker-compose 安装elasticsearch + kibana + ik分词器(8.10.4版本)

记录下，使用 docker-compose 安装 Elasticsearch 和 Kibana，并配置 IK 分词器，你可以按照以下步骤进行。此过程适用于 Elasticsearch 和 Kibana 8.10.4 版本。安装首先，在你的工作目录下创建一个 docker-compose.yml 文件，用于配置 Elasticsearch 和 Kibana 的服务。 version:

阅读更多...

搜狗浏览器打开CSDN博客排版错乱问题解决

搜狗浏览器打开CSDN博客排版错乱问题解决

之前发生过几次，不知道什么原因。今天一直用着好好的，打开一个csdn连接，显示404，博文被删除了，于是就用百度快照打开试试，百度快照打开显示的排版很乱也没找到有用信息。后面再浏览CSDN博客就排版错乱，显示一个大大二维码图片。尝试删除IE缓存无效，使用谷歌浏览是好的。基本锁定就是搜狗缓存导致的，于是找如何删除搜狗缓存清除后恢复正常

阅读更多...

【自然语言处理词库建设】怎样将搜狗的细胞词库scel格式转化成txt格式

【自然语言处理词库建设】怎样将搜狗的细胞词库scel格式转化成txt格式

搜狗词库：https://pinyin.sogou.com/dict/ 1、先下载搜狗词库到本地，文件格式为.scel后缀 2、利用python3 自动转换成txt python3版本： # -*- coding:utf-8 -*-import structimport os# 由于原代码不适用python3且有大量bug# 以及有函数没有必要使用且一些代码书写不太规范或冗余#在原有

阅读更多...

【硬刚ES】ES基础（十二）多字段特性及Mapping中配置自定义Analyzer

【硬刚ES】ES基础（十二）多字段特性及Mapping中配置自定义Analyzer

本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ES部分补充。

阅读更多...

elasticsearch 2.3.4 java API 连接，ik分词器，设置集群节点，创建index，mapping的几种方式

elasticsearch 2.3.4 java API 连接，ik分词器，设置集群节点，创建index，mapping的几种方式

1、默认集群连接 Client client = TransportClient.builder().build().addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName("localhost"), 9300)); 2、自定义集群连接 Settings settings = S

阅读更多...

解决linux版搜狗拼音皮肤透明

解决linux版搜狗拼音皮肤透明

去官网随便下载一个皮肤，右键以搜狗打开即可

阅读更多...

《Linux杂记》Linux系统安装搜狗输入法

《Linux杂记》Linux系统安装搜狗输入法

在Windows平台和手机平台上大家对搜狗输入法用的比较多，其实搜狗输入法也对Ubuntu有软件包的，搜狗输入法是基于AMD体系架构的，在基于AMD的体系架构都是支持搜狗输入法，对于ARM体系架构搜狗输入法是不支持的，但是可以安装谷歌，请看笔者的其他文章。笔者在这里要讲的是搜狗输入法的安装，接下来笔者就带领大家安装搜狗输入法。首先给出Linux版本搜狗输入法的下载链接： https://pin

阅读更多...

搜狗微信搜索爬虫

搜狗微信搜索爬虫

文章目录前言列表采集详情采集前言最近在做一个语料采集的项目，其中有涉及到公众号内容采集（非指定公众号而是指定关键词的采集），于是考虑使用搜狗采集，记录一下采集过程列表采集打开搜狗页面输入关键词，选择微信，直接搜索，查看F12发现需要的列表内容直接就在DOC文档里，postman验证一下直接URL输入就可以采集到，属于是比较容易的采集类型详情采集通过列表采

阅读更多...

15、Analyzer分析器之中文分析器的扩展

15、Analyzer分析器之中文分析器的扩展

其实在第五章节里已经有介绍过下面的分析器了，只是没有做例子，今天将下面没有做过例子分析器进行一个例子说明 paoding：庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0，且最新提交的代码在 2008-06-03，在svn中最新也是2010年提交，已经过时，不予考虑。 mmseg4j：最新版已从 http

阅读更多...

12、自定义Analyzer实现扩展停用词

12、自定义Analyzer实现扩展停用词

自定义Analyzer实现扩展停用词继承自Analyzer并覆写createComponents(String)方法维护自己的停用词词典重写TokenStreamComponents，选择合适的过滤策略 import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.CharArraySet;

阅读更多...