用Java实现搜索引擎布尔运算

2024-06-13 00:32

本文主要是介绍用Java实现搜索引擎布尔运算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

索引类:


import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.ObjectInputStream;
import java.io.ObjectOutputStream;
import java.io.Serializable;
import java.util.BitSet;
import java.util.Collection;
import java.util.HashMap;
import java.util.Map;
import java.util.zip.GZIPInputStream;
import java.util.zip.GZIPOutputStream;

public class Index implements Serializable {
/**
*
*/
private static final long serialVersionUID = 7362753433812661741L;
private Map<String, BitSet> indexMap;

private void writeObject(ObjectOutputStream out) throws IOException {
// 压缩
ByteArrayOutputStream buf = new ByteArrayOutputStream();
ObjectOutputStream objOut = new ObjectOutputStream(new GZIPOutputStream(buf));
objOut.writeObject(indexMap);
objOut.close();
out.writeObject(buf.toByteArray());
}

@SuppressWarnings("unchecked")
private void readObject(ObjectInputStream in) throws IOException, ClassNotFoundException {
byte[] buf = (byte[]) in.readObject();
ObjectInputStream objIn = new ObjectInputStream(new GZIPInputStream(
new ByteArrayInputStream(buf)));
indexMap = (Map<String, BitSet>) objIn.readObject();
objIn.close();
}

public Index(int indexSize) {
int initialCapacity = indexSize * 4 / 3;
indexMap = new HashMap<String, BitSet>(initialCapacity);
}

public Index() {
this(12);
}

public void setId(Collection<String> c, int id) {

for (String key : c) {
BitSet bit = indexMap.get(key);
if (bit == null) {
bit = new BitSet();
indexMap.put(key, bit);
}
bit.set(id);
}
}

public void setId(String[] c, int id) {

for (String key : c) {
BitSet bit = indexMap.get(key);
if (bit == null) {
bit = new BitSet();
indexMap.put(key, bit);
}
bit.set(id);
}
}

public int[] getIdSetWithAnd(String... keys) {
checkKeys(keys);
int n = keys.length;
BitSet[] bits = new BitSet[n];
int i = 0;
for (String key : keys) {
BitSet bit = indexMap.get(key);
if (bit != null) {
bits[i++] = bit;
}
}
if (i == 0)
return null;
BitSet bit = (BitSet) bits[0].clone();
for (int j = 1; j < i; j++) {
bit.and(bits[j]);
}
return getIdSet(bit);
}

public int[] getIdSetWithOr(String... keys) {
checkKeys(keys);
int n = keys.length;
BitSet[] bits = new BitSet[n];
int i = 0;
for (String key : keys) {
BitSet bit = indexMap.get(key);
if (bit != null) {
bits[i++] = bit;
}
}
if (i == 0)
return null;
BitSet bit = (BitSet) bits[0].clone();
for (int j = 1; j < i; j++) {
bit.or(bits[j]);
}
return getIdSet(bit);
}

private static void checkKeys(String... keys) {
if (keys == null)
throw new NullPointerException("keys is null.");
if (keys.length < 2) {
throw new IllegalArgumentException("keys' length is less than 2.");
}
}

public int[] getIdSet(String key) {
BitSet bit = indexMap.get(key);
if (bit == null)
return null;
else {
return getIdSet(bit);
}
}

private int[] getIdSet(BitSet bit) {
int n = bit.size();
int[] ids = new int[n];
int j = 0;
for (int i = 0; i < n; i++) {
if (bit.get(i)) {
ids[j++] = i;
}
}
if (j == n)
return ids;
else {
int[] arr = new int[j];
System.arraycopy(ids, 0, arr, 0, j);
return arr;
}
}
}



小小测试:


import java.io.File;
import java.io.IOException;
import java.util.Arrays;
import java.util.regex.Pattern;

import bluechip.io.SerializeUtils;
import bluechip.io.file.AbstractFileProcessor;
import bluechip.io.file.FileProcessor;

public class IndexTest {

/**
* @param args
*/
public static void main(String[] args) throws Exception {
//统计一下运行时间
long time = System.currentTimeMillis();
File file = new File("d:/index.dat");

Index data = null;
try {
//到从文件读取序列化对象
data = SerializeUtils.readObject(file);
} catch (Exception ex) {
final Index index = new Index(4000);
final Pattern pattern = Pattern.compile("\\s+");//简单的分词
FileProcessor fp = new AbstractFileProcessor(new File("D:/英文版世界名著[下]/罪与罚.txt")) {

@Override
protected void processLine(String line) throws IOException {
String[] words = pattern.split(line);
//一行一条记录
index.setId(words, this.getLineNumber());
}
};

fp.process();
data = index;
//序列化存储到文件
SerializeUtils.writeObject(data, file);
}
//查找存在下列单词的行号
int[] ids = data.getIdSetWithAnd("his", "and", "was", "were", "as", "to");
System.out.println(Arrays.toString(ids));
System.out.println(ids.length);
System.out.println(System.currentTimeMillis() - time);
}

}

这篇关于用Java实现搜索引擎布尔运算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055775

相关文章

springboot集成easypoi导出word换行处理过程

《springboot集成easypoi导出word换行处理过程》SpringBoot集成Easypoi导出Word时,换行符n失效显示为空格,解决方法包括生成段落或替换模板中n为回车,同时需确... 目录项目场景问题描述解决方案第一种:生成段落的方式第二种:替换模板的情况,换行符替换成回车总结项目场景s

SpringBoot集成redisson实现延时队列教程

《SpringBoot集成redisson实现延时队列教程》文章介绍了使用Redisson实现延迟队列的完整步骤,包括依赖导入、Redis配置、工具类封装、业务枚举定义、执行器实现、Bean创建、消费... 目录1、先给项目导入Redisson依赖2、配置redis3、创建 RedissonConfig 配

SpringBoot中@Value注入静态变量方式

《SpringBoot中@Value注入静态变量方式》SpringBoot中静态变量无法直接用@Value注入,需通过setter方法,@Value(${})从属性文件获取值,@Value(#{})用... 目录项目场景解决方案注解说明1、@Value("${}")使用示例2、@Value("#{}"php

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,:本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

基于 Cursor 开发 Spring Boot 项目详细攻略

《基于Cursor开发SpringBoot项目详细攻略》Cursor是集成GPT4、Claude3.5等LLM的VSCode类AI编程工具,支持SpringBoot项目开发全流程,涵盖环境配... 目录cursor是什么?基于 Cursor 开发 Spring Boot 项目完整指南1. 环境准备2. 创建

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

Spring Security简介、使用与最佳实践

《SpringSecurity简介、使用与最佳实践》SpringSecurity是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架,本文给大家介绍SpringSec... 目录一、如何理解 Spring Security?—— 核心思想二、如何在 Java 项目中使用?——