一文图解爬虫(spider)

2023-11-11 18:30
文章标签 图解 爬虫 一文 spider

本文主要是介绍一文图解爬虫(spider),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

—引导语

互联网(Internet)进化到今天,已然成为爬虫(Spider)编制的天下。从个体升级为组合、从组合联结为网络。因为有爬虫,我们可以更迅速地触达新鲜“网事”

在这里插入图片描述


那么爬虫究竟如何工作的呢?允许博主慢慢道来。

一、网络搜索算法
  • 深度搜索算法(DFS),座右铭:一路狂奔止南墙

定义:深度优先搜索属于图算法的一种,英文缩写为DFS(Depth First Search)。
特点:要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件)。]

  • 广度搜索算法(BFS),座右铭:相邻相杀何时了

定义:广度优先搜索也属于图算法的一种,英文缩写为BFS(Breath First Search)。
特点:从被搜索结构的一个节点出发,先遍历其相邻节点,再遍历相邻节点的相邻节点。

如果依然不甚理解,可以参考示意图:
在这里插入图片描述

二、制造爬虫

基于算法这个大脑,爬虫也就有了交通地图。这时耳边响起了一句儿歌:“红灯停,绿灯行 ,黄灯亮了等一等”
此时,爬虫开启了无敌模式,无畏无惧,不吃不喝也能日行三万里。
但是还是要听主人的话吧?欣慰至极。
爬虫架构
上图是一个经典的爬虫设计图,也就是各零部件的交互指导,下面进行简单阐述。

1. 客户端

也就是爬虫的出发地点,可以是主流的任何终端设备

2. URL队列

在产生一个URL队列前,先要指定一个“队长”,就好比丐帮的一代长老。如此便可以代代相传,从一个人变成一直队伍,直到夺取天下。

3. 网页解析器

好比淘金一样,我们需要经过严选才能找到自己想要的金子。数据即金子。

4. 网页下载器

可以理解为一个播种机,如何让一粒黄豆变成一串串豆角,需要我们辛勤的耕耘与浇灌。


结语

只要具备以上条件,一只爬虫即可问世,请允许它开始放肆的工作吧(手动狗头)。
各位伙伴熟悉了么?

这篇关于一文图解爬虫(spider)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/392011

相关文章

Python爬虫-贝壳新房

前言 本文是该专栏的第32篇,后面会持续分享python爬虫干货知识,记得关注。 本文以某房网为例,如下图所示,采集对应城市的新房房源数据。具体实现思路和详细逻辑,笔者将在正文结合完整代码进行详细介绍。接下来,跟着笔者直接往下看正文详细内容。(附带完整代码) 正文 地址:aHR0cHM6Ly93aC5mYW5nLmtlLmNvbS9sb3VwYW4v 目标:采集对应城市的

爬虫阶段思考

内容:写这篇文章是因为最近帮同学改了很多的爬虫代码,感触良多。 我用豆瓣为例,并不是不会用别的,而是这个我个人感觉最经典。然后还会写我遇到的一些问题以及解决方法。 首先,我们得先知道怎样爬取。我用的scrapy框架爬取。 我对此图的理解就是: 从spiders中获得一个请求(REQUEST),通过引擎传递给调度器,之后再返回给引擎,引擎把url封装好后传递给下载器,下载器将资源下载好后

图解float属性的详细信息

转自:http://www.cnblogs.com/58top/archive/2013/01/09/details_about_float_property.html 正确使用CSS的float属性可能会变成一项艰巨的任务,,它涉及内容过多,浏览器兼容性问题也很多。它的定位不仅涉及 包含块,还涉及到了行框,块框,还有行内框等内容。本文包含的实施例的应用属性float说明性例子,以及一些失误

游戏高度可配置化(一)通用数据引擎(data-e)及其在模块化游戏开发中的应用构想图解

游戏高度可配置化(一)通用数据引擎(data-e)及其在模块化游戏开发中的应用构想图解 码客 卢益贵 ygluu 关键词:游戏策划 可配置化 模块化配置 数据引擎 条件系统 红点系统 一、前言 在插件式模块化软件开发当中,既要模块高度独立(解耦)又要共享模块数据,最好的方法是有个中间平台(中间件)提供标准的接口来进行数据的交换,这在很多行业软件开发中已经广泛应用。但是,由于中间件的抽象和封

LSSS算法实现,基于eigen和pbc密码库【一文搞懂LSSS,原理+代码】

文章目录 一. LSSS简介1.1 概述1.2 线性秘密分享方案(LSSS)与 Shamir的秘密分享方案对比LSSS1.2.1 Shamir的秘密分享方案1.2.2 线性秘密分享方案(LSSS)1.2.3 主要区别 二. 基于矩阵的LSSS加解密原理分析2.1 LSSS矩阵构造2.1.1 定义2.1.2 规则 12.1.3 规则 22.1.4 规则 32.1.5 形成线性共享矩阵M 2.

【Sklearn驯化-环境配置】一文搞懂sklearn建模的最优环境搭建用法

【Sklearn驯化-环境配置】一文搞懂sklearn建模的最优环境搭建用法   本次修炼方法请往下查看 🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地! 🎇 相关内容文档获取 微信公众号 🎇 相关内容视频讲解 B站 🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机

简单的php爬虫程序

<?php /** * 爬虫程序 -- 原型 * * BookMoth 2009-02-21 */ /** * 从给定的url获取html内容 * * @param string $url * @return string */ function _getUrlContent($url){ $handle = fopen($url, "r"); if($handle){ $content =

Python爬虫基础-两个实用库

用Python学爬虫最大的好处就是python有很多实用库,免去了我们自己造轮子的环节,那么找哪些轮子呢?Python爬虫有两个比较实用的库,Requests和Beautiful Soup。我认为学好这两个库,Python爬虫也就学的差不多了。 是什么? Requests is the only Non-GMO HTTP library for Python, safe for human

当我们写爬虫的时候,我们实际在做什么?

当我开始学习爬虫的时候,我在网上也开始找相关教程,大多数都是xx分钟学会爬虫一类的文章。并不是否定这些文章的价值,因为他们的确“教会”我如何爬取网页。但我不想停留只会使用工具这一层面上,这就是我想谈谈自己对爬虫的理解。 思考一下我们是怎么样上网的呢? 打开浏览器,习惯性输入百度看看网络连接有没有问题或者输入谷歌看看能不能科学上网。然后我现在的习惯是打开简书首页,看看有没有新的技术类文章或者是鸡汤

一文看懂TON链

一、背景与起源 The Open Network (TON) 的故事起始于2018年,当时全球知名的即时通讯软件Telegram计划推出自己的区块链平台及加密货币Gram,旨在构建一个既安全又高速的分布式网络,用以支持下一代去中心化应用程序(DApps)和数字资产。然而,由于美国证券交易委员会(SEC)的法律挑战,Telegram于2020年5月正式宣布放弃该项目。但这一挫折并未阻止社区的热情,