推荐《这就是搜索引擎:核心技术详解》一书

2023-10-30 09:32

本文主要是介绍推荐《这就是搜索引擎:核心技术详解》一书,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

比较务实的一本书,也是我2014年推荐的第一本书《这就是搜索引擎:核心技术详解》,这本书陆陆续续看了大半年,受益匪浅。虽说是核心技术详解,实际上这并不是给专业人员看的书,站长朋友看了后会对搜索引擎多了一份理性,少一分谩骂。本书看起来很轻松。

这就是搜索引擎:核心技术详解

全书通俗易懂,内容广而不深,对搜索引擎的技术做了很全面的介绍,包括搜索引擎整体框架、爬虫、抓取策略、暗网爬取、分布式爬虫等内容。

搜索引擎作为互联网用户的上网入口,对流量的引导与分流至关重要,甚至可以说起了决定性的作用。1991年,Tim Berners-Lee将超文本的概念引入互联网,同时推出了WWW雏形、配套的HTTP传输协议及相应的Web服务器技术。1993年,第一个图形浏览器mosaic诞生,网页浏览客户端趋于成熟,这些技术与产品为互联网的快速普及和发展做好了技术准备,互联网用户开始从最初的军队和高校等科研机构普及到普通的个人用户,为接下来互联网的商业化大规模发展奠定了基础。

互联网信息量在过去15年获得了爆炸性增长,信息过载的问题目前来说非常严重,随着互联网个性化的发展趋势逐步展现,普通用户发布信息的成本越来越低,这个问题将会更加严重。这是搜索引擎相关引用越来越重要的一个基础背景。搜索是目前解决信息过载的相对有效的方式,在没有有效的替代解决方式出来之前,搜索引擎作为互联网网站和应用的入口及处于行业制高点的重要地位只会逐步加强。

搜索引擎发展史:分类目录(网址导航)是史前时代、文本检索是第一代、链接分析是第二代、以用户中心是第三代,

搜索引擎的3个目标:更全、更快、更准。

搜索引擎的3个核心问题:1.用户真正的需求是什么,2.哪些信息是和用户需求是真正相关的,3.哪些信息是用户可以信赖的。

搜索引擎的架构,一张图可以说明情况:

这就是搜索引擎:核心技术详解

除了上述的子功能模块,“反作弊”模块也日益重要。

互联网页面划分为五个部分:1.已下载网页集合、2.已过期网页集合、3.待下载网页集合、4.可知网页集合、5.不可知网页集合。

网络爬虫分为:批量性爬虫、增量型爬虫、垂直型爬虫。

爬虫抓取的策略:1.宽度优先遍历、2.非完全PageRank、3.OPIC(Online Page Importantance Computation)、4.大站优先。

网页更新策略:1.历史参考策略、2.用户体验策略、3.聚类抽样策略。

写在最后:

结合上面的信息我们就能大致明白了:爬虫分很多种,爬虫来了不一定抓取的原因就是这里。另外爬虫是否抓取(重新抓取)你的网页也有很多种参考因素,我们通常所以的保证网站持续更新就是历史参考策略了。本文我把网页和爬虫的部分都罗列了出来,有兴趣的朋友可以买书来看。

很多时候,你问的答案就在这里,如果你不细读的话!

书名:《这就是搜索引擎:核心技术详解》

作者:张俊林

出版社:电子工业出版社

出版日期: 2012年1月1日

平装: 300页

 

原链接来自百度

这篇关于推荐《这就是搜索引擎:核心技术详解》一书的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/306992

相关文章

java图像识别工具类(ImageRecognitionUtils)使用实例详解

《java图像识别工具类(ImageRecognitionUtils)使用实例详解》:本文主要介绍如何在Java中使用OpenCV进行图像识别,包括图像加载、预处理、分类、人脸检测和特征提取等步骤... 目录前言1. 图像识别的背景与作用2. 设计目标3. 项目依赖4. 设计与实现 ImageRecogni

Java访问修饰符public、private、protected及默认访问权限详解

《Java访问修饰符public、private、protected及默认访问权限详解》:本文主要介绍Java访问修饰符public、private、protected及默认访问权限的相关资料,每... 目录前言1. public 访问修饰符特点:示例:适用场景:2. private 访问修饰符特点:示例:

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

python管理工具之conda安装部署及使用详解

《python管理工具之conda安装部署及使用详解》这篇文章详细介绍了如何安装和使用conda来管理Python环境,它涵盖了从安装部署、镜像源配置到具体的conda使用方法,包括创建、激活、安装包... 目录pytpshheraerUhon管理工具:conda部署+使用一、安装部署1、 下载2、 安装3

详解Java如何向http/https接口发出请求

《详解Java如何向http/https接口发出请求》这篇文章主要为大家详细介绍了Java如何实现向http/https接口发出请求,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 用Java发送web请求所用到的包都在java.net下,在具体使用时可以用如下代码,你可以把它封装成一

JAVA系统中Spring Boot应用程序的配置文件application.yml使用详解

《JAVA系统中SpringBoot应用程序的配置文件application.yml使用详解》:本文主要介绍JAVA系统中SpringBoot应用程序的配置文件application.yml的... 目录文件路径文件内容解释1. Server 配置2. Spring 配置3. Logging 配置4. Ma

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

mac中资源库在哪? macOS资源库文件夹详解

《mac中资源库在哪?macOS资源库文件夹详解》经常使用Mac电脑的用户会发现,找不到Mac电脑的资源库,我们怎么打开资源库并使用呢?下面我们就来看看macOS资源库文件夹详解... 在 MACOS 系统中,「资源库」文件夹是用来存放操作系统和 App 设置的核心位置。虽然平时我们很少直接跟它打交道,但了

关于Maven中pom.xml文件配置详解

《关于Maven中pom.xml文件配置详解》pom.xml是Maven项目的核心配置文件,它描述了项目的结构、依赖关系、构建配置等信息,通过合理配置pom.xml,可以提高项目的可维护性和构建效率... 目录1. POM文件的基本结构1.1 项目基本信息2. 项目属性2.1 引用属性3. 项目依赖4. 构

Rust 数据类型详解

《Rust数据类型详解》本文介绍了Rust编程语言中的标量类型和复合类型,标量类型包括整数、浮点数、布尔和字符,而复合类型则包括元组和数组,标量类型用于表示单个值,具有不同的表示和范围,本文介绍的非... 目录一、标量类型(Scalar Types)1. 整数类型(Integer Types)1.1 整数字