用Java实现搜索引擎布尔运算

2024-06-13 00:32

本文主要是介绍用Java实现搜索引擎布尔运算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

索引类:


import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.ObjectInputStream;
import java.io.ObjectOutputStream;
import java.io.Serializable;
import java.util.BitSet;
import java.util.Collection;
import java.util.HashMap;
import java.util.Map;
import java.util.zip.GZIPInputStream;
import java.util.zip.GZIPOutputStream;

public class Index implements Serializable {
/**
*
*/
private static final long serialVersionUID = 7362753433812661741L;
private Map<String, BitSet> indexMap;

private void writeObject(ObjectOutputStream out) throws IOException {
// 压缩
ByteArrayOutputStream buf = new ByteArrayOutputStream();
ObjectOutputStream objOut = new ObjectOutputStream(new GZIPOutputStream(buf));
objOut.writeObject(indexMap);
objOut.close();
out.writeObject(buf.toByteArray());
}

@SuppressWarnings("unchecked")
private void readObject(ObjectInputStream in) throws IOException, ClassNotFoundException {
byte[] buf = (byte[]) in.readObject();
ObjectInputStream objIn = new ObjectInputStream(new GZIPInputStream(
new ByteArrayInputStream(buf)));
indexMap = (Map<String, BitSet>) objIn.readObject();
objIn.close();
}

public Index(int indexSize) {
int initialCapacity = indexSize * 4 / 3;
indexMap = new HashMap<String, BitSet>(initialCapacity);
}

public Index() {
this(12);
}

public void setId(Collection<String> c, int id) {

for (String key : c) {
BitSet bit = indexMap.get(key);
if (bit == null) {
bit = new BitSet();
indexMap.put(key, bit);
}
bit.set(id);
}
}

public void setId(String[] c, int id) {

for (String key : c) {
BitSet bit = indexMap.get(key);
if (bit == null) {
bit = new BitSet();
indexMap.put(key, bit);
}
bit.set(id);
}
}

public int[] getIdSetWithAnd(String... keys) {
checkKeys(keys);
int n = keys.length;
BitSet[] bits = new BitSet[n];
int i = 0;
for (String key : keys) {
BitSet bit = indexMap.get(key);
if (bit != null) {
bits[i++] = bit;
}
}
if (i == 0)
return null;
BitSet bit = (BitSet) bits[0].clone();
for (int j = 1; j < i; j++) {
bit.and(bits[j]);
}
return getIdSet(bit);
}

public int[] getIdSetWithOr(String... keys) {
checkKeys(keys);
int n = keys.length;
BitSet[] bits = new BitSet[n];
int i = 0;
for (String key : keys) {
BitSet bit = indexMap.get(key);
if (bit != null) {
bits[i++] = bit;
}
}
if (i == 0)
return null;
BitSet bit = (BitSet) bits[0].clone();
for (int j = 1; j < i; j++) {
bit.or(bits[j]);
}
return getIdSet(bit);
}

private static void checkKeys(String... keys) {
if (keys == null)
throw new NullPointerException("keys is null.");
if (keys.length < 2) {
throw new IllegalArgumentException("keys' length is less than 2.");
}
}

public int[] getIdSet(String key) {
BitSet bit = indexMap.get(key);
if (bit == null)
return null;
else {
return getIdSet(bit);
}
}

private int[] getIdSet(BitSet bit) {
int n = bit.size();
int[] ids = new int[n];
int j = 0;
for (int i = 0; i < n; i++) {
if (bit.get(i)) {
ids[j++] = i;
}
}
if (j == n)
return ids;
else {
int[] arr = new int[j];
System.arraycopy(ids, 0, arr, 0, j);
return arr;
}
}
}



小小测试:


import java.io.File;
import java.io.IOException;
import java.util.Arrays;
import java.util.regex.Pattern;

import bluechip.io.SerializeUtils;
import bluechip.io.file.AbstractFileProcessor;
import bluechip.io.file.FileProcessor;

public class IndexTest {

/**
* @param args
*/
public static void main(String[] args) throws Exception {
//统计一下运行时间
long time = System.currentTimeMillis();
File file = new File("d:/index.dat");

Index data = null;
try {
//到从文件读取序列化对象
data = SerializeUtils.readObject(file);
} catch (Exception ex) {
final Index index = new Index(4000);
final Pattern pattern = Pattern.compile("\\s+");//简单的分词
FileProcessor fp = new AbstractFileProcessor(new File("D:/英文版世界名著[下]/罪与罚.txt")) {

@Override
protected void processLine(String line) throws IOException {
String[] words = pattern.split(line);
//一行一条记录
index.setId(words, this.getLineNumber());
}
};

fp.process();
data = index;
//序列化存储到文件
SerializeUtils.writeObject(data, file);
}
//查找存在下列单词的行号
int[] ids = data.getIdSetWithAnd("his", "and", "was", "were", "as", "to");
System.out.println(Arrays.toString(ids));
System.out.println(ids.length);
System.out.println(System.currentTimeMillis() - time);
}

}

这篇关于用Java实现搜索引擎布尔运算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055775

相关文章

MySQL更新某个字段拼接固定字符串的实现

《MySQL更新某个字段拼接固定字符串的实现》在MySQL中,我们经常需要对数据库中的某个字段进行更新操作,本文就来介绍一下MySQL更新某个字段拼接固定字符串的实现,感兴趣的可以了解一下... 目录1. 查看字段当前值2. 更新字段拼接固定字符串3. 验证更新结果mysql更新某个字段拼接固定字符串 -

java实现延迟/超时/定时问题

《java实现延迟/超时/定时问题》:本文主要介绍java实现延迟/超时/定时问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java实现延迟/超时/定时java 每间隔5秒执行一次,一共执行5次然后结束scheduleAtFixedRate 和 schedu

Java Optional避免空指针异常的实现

《JavaOptional避免空指针异常的实现》空指针异常一直是困扰开发者的常见问题之一,本文主要介绍了JavaOptional避免空指针异常的实现,帮助开发者编写更健壮、可读性更高的代码,减少因... 目录一、Optional 概述二、Optional 的创建三、Optional 的常用方法四、Optio

在Android平台上实现消息推送功能

《在Android平台上实现消息推送功能》随着移动互联网应用的飞速发展,消息推送已成为移动应用中不可或缺的功能,在Android平台上,实现消息推送涉及到服务端的消息发送、客户端的消息接收、通知渠道(... 目录一、项目概述二、相关知识介绍2.1 消息推送的基本原理2.2 Firebase Cloud Me

Spring Boot项目中结合MyBatis实现MySQL的自动主从切换功能

《SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能》:本文主要介绍SpringBoot项目中结合MyBatis实现MySQL的自动主从切换功能,本文分步骤给大家介绍的... 目录原理解析1. mysql主从复制(Master-Slave Replication)2. 读写分离3.

Redis实现延迟任务的三种方法详解

《Redis实现延迟任务的三种方法详解》延迟任务(DelayedTask)是指在未来的某个时间点,执行相应的任务,本文为大家整理了三种常见的实现方法,感兴趣的小伙伴可以参考一下... 目录1.前言2.Redis如何实现延迟任务3.代码实现3.1. 过期键通知事件实现3.2. 使用ZSet实现延迟任务3.3

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

idea maven编译报错Java heap space的解决方法

《ideamaven编译报错Javaheapspace的解决方法》这篇文章主要为大家详细介绍了ideamaven编译报错Javaheapspace的相关解决方法,文中的示例代码讲解详细,感兴趣的... 目录1.增加 Maven 编译的堆内存2. 增加 IntelliJ IDEA 的堆内存3. 优化 Mave

Java String字符串的常用使用方法

《JavaString字符串的常用使用方法》String是JDK提供的一个类,是引用类型,并不是基本的数据类型,String用于字符串操作,在之前学习c语言的时候,对于一些字符串,会初始化字符数组表... 目录一、什么是String二、如何定义一个String1. 用双引号定义2. 通过构造函数定义三、St

springboot filter实现请求响应全链路拦截

《springbootfilter实现请求响应全链路拦截》这篇文章主要为大家详细介绍了SpringBoot如何结合Filter同时拦截请求和响应,从而实现​​日志采集自动化,感兴趣的小伙伴可以跟随小... 目录一、为什么你需要这个过滤器?​​​二、核心实现:一个Filter搞定双向数据流​​​​三、完整代码