基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎

本文主要是介绍基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

我这里有个课程和大家分享,我的qq是2059055336。我放到你们邮箱里。

。如下图所示:

 

      整个课程 的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,同时用相当大的篇幅讲解了云计算与云存储的核心技术原理及实现。

      整个课程的另一亮点是:整个项目的构建全部采用最新技术,包括但不限于以下技术:struts 2.3.16 +spring 4.0.1 +hibernate 4.3.1+jquery-easyui 1.3.5+lucene 4.6.0+solr 4.6.0+Heritrix1.14并对其做了二次封装。为了增进学员的理解,课程大量引入形象的图片来讲解算法原理,相信读者会发现原来搜索引擎的核心技术理解起来比原先想象的要简单得多。

 


      一、理论部分:

 

         2.1、搭建heritrix

            1.什么是网络爬虫

            2.网络爬虫能做什么

            3.Heritrix原理

            4.Heritrix搭建

 

         2.2、如何进行主题抓取

            1.什么是主题抓取

            2.主题抓取的意义

            3.主题抓取的策略

            4.如何用heritrix进行主题抓取

 

         2.3、heritrix优化

            1. ELFHash算法

            2.关于robot.txt

            3.将heritrix打包成工具

 

         2.4、解析html页面

            1.java正则表达式

            2.基于模板获取网页内容

            3.利用htmlparser解析html

 

          2.5、中文分词介绍

            1.Lucene自带的分词

            2.ICTCLAS

            3.IK

            4.利用机器学习的算法识别中文文章中的领域词

 

          2.6、网页去重

            1.网页去重的意义

            2.网页去重的主要方法

            3.什么是tf*idf

            4.基于指纹算法的网页去重

 

          2.7、Lucene4.6快速索引与搜索

            1.如何用lucene创建索引

            2.如何用lucene搜索结果

            3.Lucene中intfield怎么搜索

            4.Lucene的结果高亮显示

 

          2.8、Lucene4.6索引的相关操作

            1.创建索引

            2.修改索引

            3.删除索引

            4.索引优化

 

          2.9、Lucene4.6的query、及queryparser

            1.TermQuery 

            2.BooleanQuery

            3.TermRangeQuery

            4.NumericRangeQuery

            5.PrefixQuery

            6.PhraseQuery

            7.MultiPhraseQuery

            8.FuzzyQuery

            9.WildcardQuery

            10.queryparser

 

          2.10、Lucene的Filter及自定义排序

            1.Filter

            2.Lucene自带排序及指定权重

            3.Lucene自定义排序

 

         2.11、Solr快速索引与搜索

            1.什么是solr

            2.为什么工程中要使用solr

            3.Solr的原理

            4.如何在tomcat中运行solr

            5.如何利用solr进行索引与搜索

 

         2.12、Solr的查询及Filter

            1.solr的各种查询

            2.solr的Filter

            3.solr的排序

            4.solr的高亮

 

         2.13、Solr的facet介绍

            1.solr的某个域统计

            2.solr的范围统计

 

         2.14、Solrcloud集群搭建

            1.zookeeper简介

            2.solrcloud集群搭建

 

         2.15、搜索服务的工具封装

            1.工厂模式

            2.封装搜索服务_lucene

            3.封装搜索服务_solr

            4.将lucene与solr封装成可以配置的工具,可以支持任何业务系统

 

      二、项目部分:

 

         2.16、项目实战

            1.项目需求分析及框架选择

            2.Struts 2.3.16介绍

            3.Struts 2.3.16整合Spring 4.0.1

            4.Spring 4.0.1整合hibernate 4.3.1

            5.利用jquery-easyui 1.3.5 做后台管理页面

            6.Heritrix 在工程中的运用

            7.封装好的搜索框架在工程中的运用

            8.Flexpaper模仿百度文库

            9.文件上传

            10.相关代码编写

            11.搜索结果优化

            12.项目总结

课程总目录:

   

   

   

   

 



这篇关于基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1110660

相关文章

Golang操作DuckDB实战案例分享

《Golang操作DuckDB实战案例分享》DuckDB是一个嵌入式SQL数据库引擎,它与众所周知的SQLite非常相似,但它是为olap风格的工作负载设计的,DuckDB支持各种数据类型和SQL特性... 目录DuckDB的主要优点环境准备初始化表和数据查询单行或多行错误处理和事务完整代码最后总结Duck

基于Python开发电脑定时关机工具

《基于Python开发电脑定时关机工具》这篇文章主要为大家详细介绍了如何基于Python开发一个电脑定时关机工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 简介2. 运行效果3. 相关源码1. 简介这个程序就像一个“忠实的管家”,帮你按时关掉电脑,而且全程不需要你多做

Java中的Opencv简介与开发环境部署方法

《Java中的Opencv简介与开发环境部署方法》OpenCV是一个开源的计算机视觉和图像处理库,提供了丰富的图像处理算法和工具,它支持多种图像处理和计算机视觉算法,可以用于物体识别与跟踪、图像分割与... 目录1.Opencv简介Opencv的应用2.Java使用OpenCV进行图像操作opencv安装j

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

基于Qt开发一个简单的OFD阅读器

《基于Qt开发一个简单的OFD阅读器》这篇文章主要为大家详细介绍了如何使用Qt框架开发一个功能强大且性能优异的OFD阅读器,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 目录摘要引言一、OFD文件格式解析二、文档结构解析三、页面渲染四、用户交互五、性能优化六、示例代码七、未来发展方向八、结论摘要

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

在 VSCode 中配置 C++ 开发环境的详细教程

《在VSCode中配置C++开发环境的详细教程》本文详细介绍了如何在VisualStudioCode(VSCode)中配置C++开发环境,包括安装必要的工具、配置编译器、设置调试环境等步骤,通... 目录如何在 VSCode 中配置 C++ 开发环境:详细教程1. 什么是 VSCode?2. 安装 VSCo

C#图表开发之Chart详解

《C#图表开发之Chart详解》C#中的Chart控件用于开发图表功能,具有Series和ChartArea两个重要属性,Series属性是SeriesCollection类型,包含多个Series对... 目录OverviChina编程ewSeries类总结OverviewC#中,开发图表功能的控件是Char

鸿蒙开发搭建flutter适配的开发环境

《鸿蒙开发搭建flutter适配的开发环境》文章详细介绍了在Windows系统上如何创建和运行鸿蒙Flutter项目,包括使用flutterdoctor检测环境、创建项目、编译HAP包以及在真机上运... 目录环境搭建创建运行项目打包项目总结环境搭建1.安装 DevEco Studio NEXT IDE