首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
lucence专题
Lucence倒排索引
带着问题探索: 全文检索,为什么要全文检索?什么是lucence?什么是倒排索引? 一、全文检索 要了解全文检索首先需要了解:结构化数据与非结构化数据,以及半结构化数据,这三种数据构成了我们生活中所有数据的组成形式。 结构化数据非机构化数据半结构化数据含义有固定格式的的数据无固定格式的数据有一定格式的数据举例数据库中的数据文章,邮件,博客内容XML,HTML文件查询方式sqlgoogle
阅读更多...
Lucence入门
1 什么是全文检索 1.1 数据分类 我们生活中的数据总体分为两种:结构化数据和非结构化数据。 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等磁盘上的文件 1.2 结构化数据搜索 常见的结构化数据也就是数据库中的数据。在数据库中搜索很容易实现,通常都是使用sql语句进行查询,而且能很快的得到查询结果。
阅读更多...
lucence 全文搜索
什么是全文搜索? 数据的分类 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等磁盘上的文件 查询方法: 顺序扫描:从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文,接着看下一个文件,直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容,只是相当的慢。 全文检索:将非结构化数据中的一部分信息提
阅读更多...