Lucene全文检索 luke查看工具查看索引 lk分词器

2023-11-08 17:40

本文主要是介绍Lucene全文检索 luke查看工具查看索引 lk分词器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、 全文检索

1.1数据分类
结构化:数据库中的数据。存储数据有规律。
非结构化:数据存储无规律。
1.2数据搜索
顺序扫描法:例如:数据库无索引搜索、新华词典 “传播”
全文检索:索引 新华词典:基于拼音首字母或者偏旁部首。
1.3全文检索技术应用场景
1、 单机软件的搜索(word中的搜索)
2、 站内搜索 (天猫、 京东、 taobao)将来基本都是做站内搜索 (重要 未来从事方向)
3、 垂直领域的搜索 (豆丁、拉勾、100offer)
4、 专业搜索引擎公司 (google、百度)

mysql性能优化(面试题)
<1>Sql优化
<2>建立索引
<3>使用缓存(Solr) 
<4>数据库读写分离

2、Lucene简介

在这里插入图片描述

2.1Lucene简介 (工具包)
Lucene是java中全文检索技术底层。是一套工具包(jar)。不是搜索引擎(搜索服务器)。

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎。
2.2Lucene底层原理倒排索引介绍
倒排索引:在这里插入图片描述

3、Lucene的API创建索引

Lucene全文检索技术操作的是非结构化数据。

1、 准备资源(相关jar包)
2、 创建maven工程 (jar工程即可)
3、 导入相关依赖jar
4、 编写代码,基于Lucene提供的API实现创建索引操作
在这里插入图片描述
在这里插入图片描述

4、luke查看工具查看索引

在这里插入图片描述
在这里插入图片描述
查看文档内容页面
在这里插入图片描述

5、Lucene的API查询索引

在这里插入图片描述
在这里插入图片描述

6、中文分词介绍

6.1 Ik分词器实现中文分词效果 *****
优势:1、很好的支持中英文分词
2、可以动态的扩展词汇和动态的停用词汇。
使用步骤:
1、 导入相关jar包
2、 导入配置文件
3、 基于ik分词器针对中文分词

7、Lucene其他查询方式演示(补充)

在这里插入图片描述
在这里插入图片描述

8、Lucene删除文档演示(补充)

在这里插入图片描述
总结:
1、 知道Lucene底层依赖的索引结构 倒排索引
2、 知道Lucene的常用API实现索引文档查询操作
3、 全文检索技术应用场景 站内搜索 商品搜索功能
4、 第三方中文分词器 ik分词器掌握 优势

这篇关于Lucene全文检索 luke查看工具查看索引 lk分词器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/371446

相关文章

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

使用Java实现通用树形结构构建工具类

《使用Java实现通用树形结构构建工具类》这篇文章主要为大家详细介绍了如何使用Java实现通用树形结构构建工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录完整代码一、设计思想与核心功能二、核心实现原理1. 数据结构准备阶段2. 循环依赖检测算法3. 树形结构构建4. 搜索子

mysql如何查看当前连接数

《mysql如何查看当前连接数》:本文主要介绍mysql如何查看当前连接数问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql查看当前连接数查看mysql数据库允许最大连接数总结mysql查看当前连接数查看当前连接数SHOW STATUS LIKE

利用Python开发Markdown表格结构转换为Excel工具

《利用Python开发Markdown表格结构转换为Excel工具》在数据管理和文档编写过程中,我们经常使用Markdown来记录表格数据,但它没有Excel使用方便,所以本文将使用Python编写一... 目录1.完整代码2. 项目概述3. 代码解析3.1 依赖库3.2 GUI 设计3.3 解析 Mark

利用Go语言开发文件操作工具轻松处理所有文件

《利用Go语言开发文件操作工具轻松处理所有文件》在后端开发中,文件操作是一个非常常见但又容易出错的场景,本文小编要向大家介绍一个强大的Go语言文件操作工具库,它能帮你轻松处理各种文件操作场景... 目录为什么需要这个工具?核心功能详解1. 文件/目录存javascript在性检查2. 批量创建目录3. 文件

jvm调优常用命令行工具详解

《jvm调优常用命令行工具详解》:本文主要介绍jvm调优常用命令行工具的用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一 jinfo命令查看参数1.1 查看jvm参数二 jstack命令2.1 查看现场堆栈信息三 jstat 实时查看堆内存,gc情况3.1

MySQL使用binlog2sql工具实现在线恢复数据功能

《MySQL使用binlog2sql工具实现在线恢复数据功能》binlog2sql是大众点评开源的一款用于解析MySQLbinlog的工具,根据不同选项,可以得到原始SQL、回滚SQL等,下面我们就来... 目录背景目标步骤准备工作恢复数据结果验证结论背景生产数据库执行 SQL 脚本,一般会经过正规的审批

查看Oracle数据库中UNDO表空间的使用情况(最新推荐)

《查看Oracle数据库中UNDO表空间的使用情况(最新推荐)》Oracle数据库中查看UNDO表空间使用情况的4种方法:DBA_TABLESPACES和DBA_DATA_FILES提供基本信息,V$... 目录1. 通过 DBjavascriptA_TABLESPACES 和 DBA_DATA_FILES

基于Python开发批量提取Excel图片的小工具

《基于Python开发批量提取Excel图片的小工具》这篇文章主要为大家详细介绍了如何使用Python中的openpyxl库开发一个小工具,可以实现批量提取Excel图片,有需要的小伙伴可以参考一下... 目前有一个需求,就是批量读取当前目录下所有文件夹里的Excel文件,去获取出Excel文件中的图片,并

Python如何查看数据的类型

《Python如何查看数据的类型》:本文主要介绍Python如何查看数据的类型方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录python查看数据的类型1. 使用 type()2. 使用 isinstance()3. 检查对象的 __class__ 属性4.