推荐《这就是搜索引擎:核心技术详解》一书

2023-10-30 09:32

本文主要是介绍推荐《这就是搜索引擎:核心技术详解》一书,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

比较务实的一本书,也是我2014年推荐的第一本书《这就是搜索引擎:核心技术详解》,这本书陆陆续续看了大半年,受益匪浅。虽说是核心技术详解,实际上这并不是给专业人员看的书,站长朋友看了后会对搜索引擎多了一份理性,少一分谩骂。本书看起来很轻松。

这就是搜索引擎:核心技术详解

全书通俗易懂,内容广而不深,对搜索引擎的技术做了很全面的介绍,包括搜索引擎整体框架、爬虫、抓取策略、暗网爬取、分布式爬虫等内容。

搜索引擎作为互联网用户的上网入口,对流量的引导与分流至关重要,甚至可以说起了决定性的作用。1991年,Tim Berners-Lee将超文本的概念引入互联网,同时推出了WWW雏形、配套的HTTP传输协议及相应的Web服务器技术。1993年,第一个图形浏览器mosaic诞生,网页浏览客户端趋于成熟,这些技术与产品为互联网的快速普及和发展做好了技术准备,互联网用户开始从最初的军队和高校等科研机构普及到普通的个人用户,为接下来互联网的商业化大规模发展奠定了基础。

互联网信息量在过去15年获得了爆炸性增长,信息过载的问题目前来说非常严重,随着互联网个性化的发展趋势逐步展现,普通用户发布信息的成本越来越低,这个问题将会更加严重。这是搜索引擎相关引用越来越重要的一个基础背景。搜索是目前解决信息过载的相对有效的方式,在没有有效的替代解决方式出来之前,搜索引擎作为互联网网站和应用的入口及处于行业制高点的重要地位只会逐步加强。

搜索引擎发展史:分类目录(网址导航)是史前时代、文本检索是第一代、链接分析是第二代、以用户中心是第三代,

搜索引擎的3个目标:更全、更快、更准。

搜索引擎的3个核心问题:1.用户真正的需求是什么,2.哪些信息是和用户需求是真正相关的,3.哪些信息是用户可以信赖的。

搜索引擎的架构,一张图可以说明情况:

这就是搜索引擎:核心技术详解

除了上述的子功能模块,“反作弊”模块也日益重要。

互联网页面划分为五个部分:1.已下载网页集合、2.已过期网页集合、3.待下载网页集合、4.可知网页集合、5.不可知网页集合。

网络爬虫分为:批量性爬虫、增量型爬虫、垂直型爬虫。

爬虫抓取的策略:1.宽度优先遍历、2.非完全PageRank、3.OPIC(Online Page Importantance Computation)、4.大站优先。

网页更新策略:1.历史参考策略、2.用户体验策略、3.聚类抽样策略。

写在最后:

结合上面的信息我们就能大致明白了:爬虫分很多种,爬虫来了不一定抓取的原因就是这里。另外爬虫是否抓取(重新抓取)你的网页也有很多种参考因素,我们通常所以的保证网站持续更新就是历史参考策略了。本文我把网页和爬虫的部分都罗列了出来,有兴趣的朋友可以买书来看。

很多时候,你问的答案就在这里,如果你不细读的话!

书名:《这就是搜索引擎:核心技术详解》

作者:张俊林

出版社:电子工业出版社

出版日期: 2012年1月1日

平装: 300页

 

原链接来自百度

这篇关于推荐《这就是搜索引擎:核心技术详解》一书的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/306992

相关文章

Linux换行符的使用方法详解

《Linux换行符的使用方法详解》本文介绍了Linux中常用的换行符LF及其在文件中的表示,展示了如何使用sed命令替换换行符,并列举了与换行符处理相关的Linux命令,通过代码讲解的非常详细,需要的... 目录简介检测文件中的换行符使用 cat -A 查看换行符使用 od -c 检查字符换行符格式转换将

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使

Android中Dialog的使用详解

《Android中Dialog的使用详解》Dialog(对话框)是Android中常用的UI组件,用于临时显示重要信息或获取用户输入,本文给大家介绍Android中Dialog的使用,感兴趣的朋友一起... 目录android中Dialog的使用详解1. 基本Dialog类型1.1 AlertDialog(

C#数据结构之字符串(string)详解

《C#数据结构之字符串(string)详解》:本文主要介绍C#数据结构之字符串(string),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录转义字符序列字符串的创建字符串的声明null字符串与空字符串重复单字符字符串的构造字符串的属性和常用方法属性常用方法总结摘

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

Java中StopWatch的使用示例详解

《Java中StopWatch的使用示例详解》stopWatch是org.springframework.util包下的一个工具类,使用它可直观的输出代码执行耗时,以及执行时间百分比,这篇文章主要介绍... 目录stopWatch 是org.springframework.util 包下的一个工具类,使用它

Java进行文件格式校验的方案详解

《Java进行文件格式校验的方案详解》这篇文章主要为大家详细介绍了Java中进行文件格式校验的相关方案,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、背景异常现象原因排查用户的无心之过二、解决方案Magandroidic Number判断主流检测库对比Tika的使用区分zip

Java实现时间与字符串互相转换详解

《Java实现时间与字符串互相转换详解》这篇文章主要为大家详细介绍了Java中实现时间与字符串互相转换的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、日期格式化为字符串(一)使用预定义格式(二)自定义格式二、字符串解析为日期(一)解析ISO格式字符串(二)解析自定义

springboot security快速使用示例详解

《springbootsecurity快速使用示例详解》:本文主要介绍springbootsecurity快速使用示例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录创www.chinasem.cn建spring boot项目生成脚手架配置依赖接口示例代码项目结构启用s

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2