Lucene暴走之巧用内存倒排索引高效识别垃圾数据

2024-05-15 03:38

本文主要是介绍Lucene暴走之巧用内存倒排索引高效识别垃圾数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[size=medium]
识别垃圾数据,在一些大数据项目中的ETL清洗时,非常常见,比如通过关键词
(1)过滤垃圾邮件
(2)识别yellow网站
(3)筛选海量简历招聘信息
(4)智能机器人问答测试
........
各个公司的业务规则都不一样,那么识别的算法和算法也不一样,这里提供一种思路,来高效快速的根据关键词规则识别垃圾数据。

下面看下需求:

业务定义一些主关键词若干少则几百个,多则几千个上万个,例如:
[/size]

公司
机车厂
化纤厂
建设局
实业集团
中心店
桑拿中心
托管中心

然后又定义一些辅助关键词若干:

原告
被告
委托代理人
当事人
申请人
上诉人

[size=medium]
ok,关键词有了,下面看下业务规则 , 规定如下:

任意辅助关键词组合主关键词都命中的情况下,并且词组间距不大于20者,即为合法数据。

嗯,没听懂?,那么来看个例子,一段文本如下:
[/size]

上诉人北京金建出租汽车有限公司因机动车x通事故责任纠纷一案

[size=medium]
使用IK细粒度分词后可能是这样的:
[/size]

上诉人|上诉|人|北京|金|建出|出租汽车|出租|汽车|有限公司|有限|有|限|公司|因|机动车|机动|车|x通事故|x通|通事|事故责任|事故|责任|纠纷|一案|

[size=medium]
根据规则,辅助词库与主词库都命中,而且中间的词组间距不超过20的,为合法数据,
本例子中:
辅助关键词:上诉人
主关键词: 公司
都出现,中间词组是12个,所以符合业务规则,即为合法数据,

假设,改变原来的文本的公司为集团,再次测试:
[/size]

上诉人北京金建出租汽车有限集团因机动车x通事故责任纠纷一案

使用IK细粒度分词后可能是这样的:

上诉人|上诉|人|北京|金|建出|出租汽车|出租|汽车|有限集团|有限|有|限|集团|因|机动车|机动|车|x通事故|x通|通事|事故责任|事故|责任|纠纷|一案|

[size=medium]
这次因为辅助关键词库命中了,但是主关键词库没有命中,所以会被当成垃圾数据。

上面是帮助理解业务的一个例子,下面再分析下,性能问题,假设主关键词有500个,辅助关键词有10个,那么任意
两两组合的可能就是500*10=5000个规则条件,也就是意味着需要最坏情况下,需要匹配5000次才能识别一篇垃圾数据,当然如果你参与识别垃圾的文本不是一个字段,而是二个字段,一个是标题,一个是内容,那么最后真正的匹配次数是5000*2=10000词匹配,如果再加上距离条件,那么查询的复杂度将会大幅度增加,这个时候,如果我们使用正则匹配
效率可想而知,使用正则每次全文扫描定位,耗时非常之慢,这时候我们假设有一种快捷的hash算法,来提升性能,毫无疑问,类似的倒排索引将会是解决这种问题的神器。

因为只需要构建一次临时索引,不落地磁盘,不与IO打交道,仅仅在内存和cpu之间参与计算匹配,而且规则方式非常灵活,可以有更多的规则制定进来,特别是关键词匹配这块,lucene索引非常完美的解决了这个问题。当然如此这种计算,非常耗CPU,对内存的占用不是非常高,因为一条数据,处理完之后,他占用的资源,会被释放。

在线情况下:平均几十毫秒左右就能识别一条数据,已经接近实时了

离线情况下:在集成到hadoop或者Spark这种分布式的集群里面,也是非常给力的,因为通常情况下spark和hadoop比较耗IO和磁盘而加入这种运算将会大大提升集群的资源使用效率。

本项目只是给出了一个根据关键词识别的例子,这个项目拿到你们本地也许并不能立刻使用,但是相似的业务,但是它提供了一种思路,大部分情况下,改动少许代码,即可适应大部分类似的业务。
核心代码如下:
[/size]


package com.anytrust.algo;

import com.anytrust.model.MonitorType;
import com.anytrust.tools.DictTools;
import org.apache.lucene.index.memory.MemoryIndex;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.BooleanQuery;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.wltea.analyzer.lucene.IKAnalyzer;

/**
* Created by qindongliang on 2016/1/7.
* 根据规则识别是否为垃圾数据
*/
public class CheckOneAlgo {

//IK中文分词器
IKAnalyzer analyzer=new IKAnalyzer(false);
//内存索引处理
MemoryIndex index = new MemoryIndex();

static {
//设置Lucene的boolean query条件数最大支持个数
BooleanQuery.setMaxClauseCount(10000);
}


static Logger logger= LoggerFactory.getLogger(CheckOneAlgo.class);


/**构建查询query
* @param type 根据类型构建
* */
private String buildQuery(MonitorType type){

StringBuffer sb =new StringBuffer("(");
for(String kw: DictTools.main_kws){//遍历主词库
switch (type) {
case LITIGATION://代表文书 0105
for (String hkw : DictTools.assist_kws) { //遍历辅助词库
sb.append("tc:\"").append(hkw + kw).append("\"~20 ");
}
break;
case ANNOUNCEMENT://公告 0104
sb.append("tc:\"").append(kw).append("\" ");
break;
default:
logger.error("未知类型:{}",type);
break;

}
}
sb.append(" ) ");
return sb.toString();
}


/***
* 对一段文本执行垃圾数据识别功能
* 返回true说明是有效数据
* 返回false说明是垃圾数据
* @param text 监测的文本
* @return
*/
public boolean checkDoc(String text,MonitorType type){
String query=buildQuery(type);
QueryParser parser = new QueryParser("", analyzer);
index.addField("tc", text, analyzer);
try {
float score = index.search(parser.parse(query));
if(score > 0.0f){
return true;//正确数据
}else{
return false;//垃圾数据
}

}catch (Exception e){
logger.error("识别垃圾数据异常!",e);
}finally {
index.reset();//重置index引擎,服复用类对象
}
return false;
}


}


[size=medium]有些关键词在Iteye博客会屏蔽,建议直接到github看:
Github地址:[url]https://github.com/qindongliang/lucene-garbage-check[/url]
[/size]
[b][color=green][size=large]
有什么问题 可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享,也是一个温馨的技术互动交流的小家园
[/size][/color][/b]
[img]http://dl2.iteye.com/upload/attachment/0104/9948/3214000f-5633-3c17-a3d7-83ebda9aebff.jpg[/img]

这篇关于Lucene暴走之巧用内存倒排索引高效识别垃圾数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990702

相关文章

MySQL数据目录迁移的完整过程

《MySQL数据目录迁移的完整过程》文章详细介绍了将MySQL数据目录迁移到新硬盘的整个过程,包括新硬盘挂载、创建新的数据目录、迁移数据(推荐使用两遍rsync方案)、修改MySQL配置文件和重启验证... 目录1,新硬盘挂载(如果有的话)2,创建新的 mysql 数据目录3,迁移 MySQL 数据(推荐两

input的accept属性让文件上传安全高效

《input的accept属性让文件上传安全高效》文章介绍了HTML的input文件上传`accept`属性在文件上传校验中的重要性和优势,通过使用`accept`属性,可以减少前端JavaScrip... 目录前言那个悄悄毁掉你上传体验的“常见写法”改变一切的 html 小特性:accept真正的魔法:让

Python数据验证神器Pydantic库的使用和实践中的避坑指南

《Python数据验证神器Pydantic库的使用和实践中的避坑指南》Pydantic是一个用于数据验证和设置的库,可以显著简化API接口开发,文章通过一个实际案例,展示了Pydantic如何在生产环... 目录1️⃣ 崩溃时刻:当你的API接口又双叒崩了!2️⃣ 神兵天降:3行代码解决验证难题3️⃣ 深度

MySQL快速复制一张表的四种核心方法(包括表结构和数据)

《MySQL快速复制一张表的四种核心方法(包括表结构和数据)》本文详细介绍了四种复制MySQL表(结构+数据)的方法,并对每种方法进行了对比分析,适用于不同场景和数据量的复制需求,特别是针对超大表(1... 目录一、mysql 复制表(结构+数据)的 4 种核心方法(面试结构化回答)方法 1:CREATE

详解C++ 存储二进制数据容器的几种方法

《详解C++存储二进制数据容器的几种方法》本文主要介绍了详解C++存储二进制数据容器,包括std::vector、std::array、std::string、std::bitset和std::ve... 目录1.std::vector<uint8_t>(最常用)特点:适用场景:示例:2.std::arra

Java使用Spire.Barcode for Java实现条形码生成与识别

《Java使用Spire.BarcodeforJava实现条形码生成与识别》在现代商业和技术领域,条形码无处不在,本教程将引导您深入了解如何在您的Java项目中利用Spire.Barcodefor... 目录1. Spire.Barcode for Java 简介与环境配置2. 使用 Spire.Barco

使用Python实现高效复制Excel行列与单元格

《使用Python实现高效复制Excel行列与单元格》在日常办公自动化或数据处理场景中,复制Excel中的单元格、行、列是高频需求,下面我们就来看看如何使用FreeSpire.XLSforPython... 目录一、环境准备:安装Free Spire.XLS for python二、核心实战:复制 Exce

MySQL中的DELETE删除数据及注意事项

《MySQL中的DELETE删除数据及注意事项》MySQL的DELETE语句是数据库操作中不可或缺的一部分,通过合理使用索引、批量删除、避免全表删除、使用TRUNCATE、使用ORDERBY和LIMI... 目录1. 基本语法单表删除2. 高级用法使用子查询删除删除多表3. 性能优化策略使用索引批量删除避免

MySQL 数据库进阶之SQL 数据操作与子查询操作大全

《MySQL数据库进阶之SQL数据操作与子查询操作大全》本文详细介绍了SQL中的子查询、数据添加(INSERT)、数据修改(UPDATE)和数据删除(DELETE、TRUNCATE、DROP)操作... 目录一、子查询:嵌套在查询中的查询1.1 子查询的基本语法1.2 子查询的实战示例二、数据添加:INSE

Linux服务器数据盘移除并重新挂载的全过程

《Linux服务器数据盘移除并重新挂载的全过程》:本文主要介绍在Linux服务器上移除并重新挂载数据盘的整个过程,分为三大步:卸载文件系统、分离磁盘和重新挂载,每一步都有详细的步骤和注意事项,确保... 目录引言第一步:卸载文件系统第二步:分离磁盘第三步:重新挂载引言在 linux 服务器上移除并重新挂p