基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH

2024-08-27 04:38

本文主要是介绍基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!



我这里有套课程想和大家分享,需要的朋友可以加我qq和我联系。QQ2059055336.

 

 

一、课程内容介绍:

 

   1、整体思路

      整个课程,按照一个从无到有的过程来展开。所有的数据,来自于互联网,用heritrix去抓取。对于抓取的数据,进行去重,去标签,然后利用lucene 和 solr 进行索引和搜索。如下图所示:

 

      在网页去重、解析html讲解java开发,在搜索服务工具的封装中,讲解设计模式,项目的前端采用jquery,后台采用SSH2。

 

 

   2、内容安排:

 

      一、理论部分:

 

         2.1、搭建heritrix

            1.什么是网络爬虫

            2.网络爬虫能做什么

            3.Heritrix原理

            4.Heritrix搭建

 

         2.2、如何进行主题抓取

            1.什么是主题抓取

            2.主题抓取的意义

            3.主题抓取的策略

            4.如何用heritrix进行主题抓取

 

         2.3、heritrix优化

            1. ELFHash算法

            2.关于robot.txt

            3.将heritrix打包成工具

 

         2.4、解析html页面

            1.java正则表达式

            2.基于模板获取网页内容

            3.利用htmlparser解析html

 

          2.5、中文分词介绍

            1.Lucene自带的分词

            2.ICTCLAS

            3.IK

            4.利用机器学习的算法识别中文文章中的领域词

 

          2.6、网页去重

            1.网页去重的意义

            2.网页去重的主要方法

            3.什么是tf*idf

            4.基于指纹算法的网页去重

 

          2.7、Lucene4.6快速索引与搜索

            1.如何用lucene创建索引

            2.如何用lucene搜索结果

            3.Lucene中intfield怎么搜索

            4.Lucene的结果高亮显示

 

          2.8、Lucene4.6索引的相关操作

            1.创建索引

            2.修改索引

            3.删除索引

            4.索引优化

 

          2.9、Lucene4.6的query、及queryparser

            1.TermQuery 

            2.BooleanQuery

            3.TermRangeQuery

            4.NumericRangeQuery

            5.PrefixQuery

            6.PhraseQuery

            7.MultiPhraseQuery

            8.FuzzyQuery

            9.WildcardQuery

            10.queryparser

 

          2.10、Lucene的Filter及自定义排序

            1.Filter

            2.Lucene自带排序及指定权重

            3.Lucene自定义排序

 

         2.11、Solr快速索引与搜索

            1.什么是solr

            2.为什么工程中要使用solr

            3.Solr的原理

            4.如何在tomcat中运行solr

            5.如何利用solr进行索引与搜索

 

         2.12、Solr的查询及Filter

            1.solr的各种查询

            2.solr的Filter

            3.solr的排序

            4.solr的高亮

 

         2.13、Solr的facet介绍

            1.solr的某个域统计

            2.solr的范围统计

 

         2.14、Solrcloud集群搭建

            1.zookeeper简介

            2.solrcloud集群搭建

 

         2.15、搜索服务的工具封装

            1.工厂模式

            2.封装搜索服务_lucene

            3.封装搜索服务_solr

            4.将lucene与solr封装成可以配置的工具,可以支持任何业务系统

 

      二、项目部分:

 

         2.16、项目实战

            1.项目需求分析及框架选择

            2.Struts 2.3.16介绍

            3.Struts 2.3.16整合Spring 4.0.1

            4.Spring 4.0.1整合hibernate 4.3.1

            5.利用jquery-easyui 1.3.5 做后台管理页面

            6.Heritrix 在工程中的运用

            7.封装好的搜索框架在工程中的运用

            8.Flexpaper模仿百度文库

            9.文件上传

            10.相关代码编写

            11.搜索结果优化

            12.项目总结

 

 

      三、课程亮点

 

         3.1 对heritrix进一步封装,可以按照需求配置,单独运行。

         3.2 对lucene 4.6.0与solr 4.6.0进行封装,通过配置就可以对绝大多数的业务系统进行数据库及其文件的索引、搜索。

         3.3 对目前最新的ssh(struts 2.3.16 spring 4.0.1 hibernate 4.3.1)整合,并结合目前最新的版本的jquery-easyui 1.3.5,构建了一个完整的垂直搜索引擎。

         3.4 整个课程的理论部分,参看了大量的核心期刊论文,并针对目前中文分词,用纯java代码实现了一种基于无监督的识别方法。另外,实现了文本的特征抽取TF*IDF算法,最小编辑距离算法,文本相似度算法(传统的夹角余弦及指纹算法)。

 

这篇关于基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1110661

相关文章

基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎

我这里有个课程和大家分享,我的qq是2059055336。我放到你们邮箱里。 。如下图所示:         整个课程 的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,同时用相当大的篇幅讲解了云计算与

S2SH向mysql数据库中插入记录显示问号的解决方法(采用utf-8)

一:修改mysql配置文件my-default.ini(可能是另一个名字my.ini)添加如下内容(本来就有的话就改一下): 添加的就是如下这部分 [client] default-character-set=utf8 [mysqld] character-set-server=utf8 collation-server=utf8_general_ci   [mysql] default

s2sh项目搭建及使用详解

把整合中遇到的问题放在最前面: 1、jar包冲突: 因为 Spring2.5 AOP Liberaries 里的 asm2.2.3.jar 和 Hiberate 中的生成代理用的 asm.jar 冲突,我们需要删除 asm2.2.3.jar ,不然就会发生异常: java.lang.NoClassDefFoundError: org/objectweb/asm/CodeVisitor  。具

Strust2+Spring+Hibernate(S2SH)框架搭建

SSH2框架的版本为:struts-2.2.3 + spring-2.5.6 + hibernate-3.6.8 1、jar包 struts2: struts2-core-2.2.3.jar struts2-spring-plugin-2.2.3.jar xwork-core-2.2.3.jar commons-io-2.0.1.jar commons-lang-2.5.jar c

框架技术--S2SH框架整合(注解 No 1)

接着之前的一篇文章“框架技术--S2SH框架整合(使用myeclipse自动生成)”,这里我使用了注解搭建了下,和大家分享下。 目前只将spring、hibernate两层框架使用了注解的方式,struts2暂时还没替换,待后续我替换上,在整理文章与大家分享。 以下仅是这两天使用注解搭建框架的一些方式,以此记录,便于后续使用。 hibernate框架: 1、使用hierbernate

Java之基于S2SH与手机数据交互(二)

转载注明出处http://blog.csdn.net/SnowWitch/article/details/51280141 在上篇博客,由于各种原因,说的不是很详细,其实大家看一下代码,就能明白了。今天说一下如何从数据库获取数据,并传递给手机端进行数据交互。上篇博客是传的固定数据,然后转成json格式,其实有开发的经验的童鞋,应该就能看出来,我们只需要在那个action方法里面实现数据处理,然后

Java之基于S2SH与手机数据交互(一)

在前两篇博客,介绍了在eclipse上搭建SSH,但是好多小伙伴反映,看了偶写滴博客,跟着搭建还是错误百出,唉!其实不经历错误怎么能不见红线啊!于是我在上篇博客补充了他们的错误,还在被错误困扰的童鞋,可以去看一看。 今天我们简单介绍一下,如何在SSH基础上与手机进行数据交互。现在后台给移动端传递数据一般都是以json的格式传递给移动端,然后移动端在对json进行解析。说白了就是给一个链接,打开之

S2SH动漫论坛

《S2SH动漫论坛》该项目采用技术jsp、strust2、Spring、hibernate、tomcat服务器、mysql数据库 开发工具eclipse,项目含有源码、论文、配套开发软件、软件安装教程、项目发布教程 动漫论坛项目主要用于实现动漫爱好者的互相交流,基本功能包括:注册用户、登录、浏览帖子、发布新帖、回复帖子、等。 本系统结构如下: (1)普通用户: 注册用户:如果用户为非会员用

基于S2SH框架的项目—jar包选用

刚开始项目搭建好以后,项目会添加如下图中的jar包: 在调试程序的时候会遇到jar包的冲突 ,鉴于这种问题的出现,我们可以把所有这些jar包从项目中移除,然后再从外面引用完整的、没有冲突的jar包,大家可以到我的资源专栏中去下载,现在就去下载... 最新版本Spring、Hibernate、Struts框架整合 一、ssh综述:最新版本Struts2、Hi

S2SH框架原理及优点

系统从职责上分为四层:表示层、业务逻辑层、数据持久层和域模块层。其中使用Struts作为系统的整体基础架构,负责MVC的分离,在Struts框架的模型部分,利用Hibernate框架对持久层提供支持,业务层用Spring支持。具体做法是:用面向对象的分析方法根据需求提出一些模型,将这些模型实现为基本的Java对象,然后编写基本的DAO接口,并给出Hibernate的