Python爬虫从入门到精通:（1）爬虫基础简介

Python爬虫从入门到精通:（1）爬虫基础简介_Python涛哥

本文主要是介绍Python爬虫从入门到精通:（1）爬虫基础简介_Python涛哥，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

第一章，爬虫基础简介

爬虫概述

前戏

你是否在夜深人静的时候，想看一些会让你更睡不着的图片…
你是否在考试或者面试前夕，想看一些具有针对性的题目和面试题…
你是否想在杂乱的网络世界获取你想要的数据…

爬虫的价值

实际应用
就业

什么是爬虫

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程

关键词抽取：
- 模拟：浏览器就是一个纯天然最原始的一个爬虫工具
- 抓取：
  - 抓取一整张页面源码数据
  - 抓取一整张页面中的局部数据

爬虫的分类

通用爬虫：
- 要求我们爬取一整张的页面源码数据
聚焦爬虫
- 要求爬取一张页面中的局部的数据
  - 聚焦爬虫一定是建立在通用爬虫基础之上
增量式爬虫：
- 用来检测网站数据更新的情况，以便爬取到网站最新更新出来的数据。
分布式爬虫：
- 提高爬虫效率的终极武器。

反爬、反反爬

反爬机制

是作用到门户网站中。如果网站不想让爬虫轻易爬取到数据，它可以制定相关的机制或者措施阻止爬虫程序爬取数据。

反反爬策略

是作用在爬虫程序中。我们爬虫可以制定相关的策略破击反爬机制从而爬取到相关的数据。

第一种反爬机制

robots协议：防君子不防小人
- 是一个纯文本的协议，协议中规定了该网站中哪些数据可以被哪些爬虫爬起，哪些不可以被爬取。
破解：
- 你自己主观性的不遵从该协议即可。

爬虫究竟是合法还是违法？

在法律上是不被禁止
具有违法风险
善意爬虫恶意爬虫

爬虫带来的风险可以提现下如下两个方面

爬虫干扰了被访问网站的正常运营
爬虫抓取了收到法律保护的特定类型的数据或信息

如何在使用编写爬虫的过程中避免进入局子的厄运呢？

时常的优化自己的程序，避免干扰被访问网站的正常运行
在使用，传播爬取到的数据时，审查抓取到的内容，如果发现了涉及到用户隐私、商业机密等敏感内容，需要及时停止爬取或传播

这篇关于Python爬虫从入门到精通:（1）爬虫基础简介_Python涛哥的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Python爬虫从入门到精通:（1）爬虫基础简介_Python涛哥

第一章，爬虫基础简介

爬虫概述

前戏

爬虫的价值

什么是爬虫

爬虫的分类

反爬、反反爬

反爬机制

反反爬策略

第一种反爬机制

爬虫究竟是合法还是违法？

相关文章

使用Python实现矢量路径的压缩、解压与可视化

python获取网页表格的多种方法汇总

Python装饰器之类装饰器详解

Python 交互式可视化的利器Bokeh的使用

如何使用 Python 读取 Excel 数据

Python的time模块一些常用功能(各种与时间相关的函数)

利用Python调试串口的示例代码

Python ZIP文件操作技巧详解

Python Transformers库(NLP处理库)案例代码讲解

Python正则表达式语法及re模块中的常用函数详解