Python3.X 爬虫实战(先爬起来嗨)

2023-11-20 21:51

本文主要是介绍Python3.X 爬虫实战(先爬起来嗨),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载,请尊重作者劳动成果。私信联系我】

1 背景

爬虫的价值就不多说了,Python 的便捷与强大也就不 BB 了,在这个数据泛滥、追求效率的时代,使用 Python 可以为我们创造相当多的便捷,Web 开发、桌面小工具开发、粘性脚本编写、大数据处理、图像处理、机器学习等等,能做到的事情实在太多。就拿一个再随便不过的需求来说吧,当我们在做 Android 开发时想将现有 drawable 目录下 *.png 图片全部自动转换为 webp 格式时,我们一般的套路可能都是借助第三方工具(很多都只能一张一张转换),而使用 Python 核心就两行代码就可以做到这一点,如果想批量自定义转换姿势(路径、文件名等),使用 Python 也是非常方便的,譬如这里就有一个我写的非常简单的 Python png 批量转换 webp 工具。具体源码如下:

#! /usr/bin/env python3from PIL import Image
from glob import glob
import os
"""
说明:仅提供核心基础思想和脚本,自己可以改善为自动识别 Android 工程全部转换。
1. 将该脚本放置在自己 Android png 目录下;
2. 运行命令 python3 image2webp.py;
3. 在该目录下的 output 目录下生成当前文件夹下所有 png 图片对应的 webp 图片;
"""def image2webp(inputFile, outputFile):try:image = Image.open(inputFile)if image.mode != 'RGBA' and image.mode != 'RGB':image = image.convert('RGBA')image.save(outputFile, 'WEBP')print(inputFile + ' has converted to ' + outputFile)except Exception as e:print('Error: ' + inputFile + ' converte failed to ' + outputFile)matchFileList = glob('*.png')
if len(matchFileList) <= 0:print("There are no *.png file in this directory (you can run this script in your *png directory)!")exit(-1)outputDir = os.getcwd() + "/output"
for pngFile in matchFileList:fileName = pngFile[0:pngFile.index('.')]if not os.path.exists(outputDir):os.makedirs(outputDir)image2webp(pngFile, outputDir + "/" + fileName + ".webp")print("Converted done! all webp file in the output directory!")

震撼吧,人生苦短,我用 Python!真的是这样咯,不过这一系列我们不探讨 Python 的其他奥妙,而是直接探讨一个垂直领域 —— Python 爬虫。其实双赢的爬虫(搜索引擎收录爬虫就是共赢的,地下黑作坊在网上肆意洗数据,譬如洗邮箱数据就是被抵制或非法的)对于大多数网站来说是有利的,而恶意的爬虫就适得其反了。正常来说我们想要获取某些网站数据应该通过他们的开放 API 进行合法授权访问,但是企业毕竟是企业,都是有所保留的开放 API 权限,所以有时候我们不得不使用暴力手段来洗劫有价值的数据,这也就是爬虫存在的一大价值。

这里写图片描述

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载,请尊重作者劳动成果。私信联系我】

2 爬虫基础

爬虫其实涉及的东西还是比较杂和多的,比较重要的几点可能就是得掌握 Python 语法基础和一些常用的内置或者拓展模块、熟悉 WEB 开发的相关知识、熟悉数据持久化(关系型数据库、非关系型数据库、文件)缓存等一些技术、熟悉正则等。

2-1 约定俗成的潜规则

对 WEB 了解的朋友都知道一般的网站都会有 robots.txt 和 Sitemap 定义,这些定义其实对我们进行合理化的爬虫编写是具备指导意义的,譬如我们看下稀土掘金(https://juejin.im)这个网站的 robots.txt 文件(https://juejin.im/robots.txt),如下:

User-agent:*
Disallow:/timeline
Disallow:/submit-entry
......
Disallow:/subscribe/all?sort=newest
Disallow:/searchSitemap:https://juejin.im/sitemap/sitemappart1.xml
......
Sitemap:https://juejin.im/sitemap/sitemappart4.xml

robots.txt 中定义的 Sitemap,访问(https://juejin.im/sitemap/sitemappart1.xml)如下:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://juejin.im/</loc>
<priority>1.0</priority>
<changefreq>always</changefreq>
</url>
<url>
<loc>https://juejin.im/welcome/android</loc>
<priority>0.8</priority>
<changefreq>hourly</changefreq>
</url>
......
</urlset>

可以看到 robots.txt 文件内容明确建议(注意:只是建议,只是建议,只是建议,恶意的爬虫管你这屁建议呢)了爬虫程序爬取该网站时有哪些限制,一般遵守这些限制规则就能很好的降低自己爬虫被封的风险;Sitemap 提供了网站几乎所有的页面列表,我们可以使用这个列表直接爬取这个站点,也可以自己采用别的方式,因为这玩意不是每个网站都有的。所以说 robots.txt 和 Sitemap 只是约定俗成的潜规则,潜规则,一般我们酌情遵守就行了,譬如可以考虑遵守他们提到的访问请求间隔、代理禁止类型等,其他的就看你自己的节操了。

2-2 基本工具

俗话说“工欲善其事必先利其器”,爬虫也需要一些利器。对于 Python 开发工具我选择 PyCharm 和 Sublime;对于浏览器可以选择 Chrome 等,再安装一些 WEB 开发插件,譬如 FireBug、Wappalyzer、Chrome Sniffer 等,方便爬虫时分析网站,尤其是浏览器 F12 大法和清空站点 Cookie 一定要掌握,不然就没法愉快的玩耍爬虫了。当然了,爬虫的核心之一其实在于抓取到数据后如何筛选出对自己有价值的数据,关于做到和做好这一点我们有必要对站点页面有一个比较准确的把握,想要做到这一点就必须大致知道该网页使用了那些技术,这样就可以提高我们分析页面的效率。分析网页使用哪些技术有很多方法,也有很多浏览器插件,譬如上面提到的 Chrome Sniffer等;也可以直接访问 https://builtwith.com/ 网站输入你要爬取的网页进行识别;当然也可以用 Python 的 builtwith 模块来获取,悲哀的是这个模块现在不支持 Python 3.X 版本,需要自己安装后手动修改。

当然了,还有一个不常用的利器需要知道,那就是度娘和 Google 咯,为啥呢?因为有时候我们大型项目可能需要先大致评估全站点爬虫的量有多大来进行相关爬虫的技术选型参考,所以有必要知彼知己。下面就以稀土掘金为例说明,如图:
这里写图片描述
可以看到,通过 site 指令度娘搜索告诉我们稀土掘金这个站点大约有 27256 个页面(这只是参考值,不完全准确),当我们真的需要全站点爬虫攻击时就要考虑这么大量情况下的爬虫方案选型和策略,以便保证爬虫的效率。

2-3 基本爬取技术思路

爬虫涉及的通用技术最核心的可能就是 HTTP 请求了,我们至少至少应该掌握 HTTP 的 POST 和 GET 请求方法;其次就是 HTTP 请求和返回的 Header 含义及如何使用浏览器等工具跟踪请求 Header,因为爬虫链接请求时出现问题最多的情况一般都是 Header 有问题,譬如通常至少要保证 User-Agent、Referer、Cookie 等的伪装正确性,返回 Header 里的重定向链接,Gzip 数据需要解压等;还有就是 POST 数据的 urlencode 包装发送等;所以在进行爬虫前一定要具备比较扎实的前端与后端基础知识,同时要具备比较充足的 HTTP 知识。

有了这些知识我们可能就会急于开始爬取,其实这是不对的,我们应该做的第一件事是对要爬取的站点进行分析,至于如何分析,下面给出了一些常规套路:

  1. 首先倒腾下看你要抓取的站点有没有响应式的移动页面,如果有那就保持一个原则,尽可能的抓取他们的移动页面(原因就是一般移动页面都是内容干货啊,相对 PC 页面没那么臃肿,方便分析)。

  2. Cookie 的操蛋之处,分析时建议开启隐身模式等,不然就面对清空 Cookie 大法了,清空 Cookie 对于爬虫网站分析至关重要,一定要 get 到。

  3. 分析爬取网页是静态页面还是动态页面,以便采取不同的爬取策略,使用不同的爬取工具。

  4. 查看网页源码找出对你有价值的数据的网页排版规律,譬如特定 CSS 选择等,从而指定抓取后的数据解析规则。

  5. 清洗数据后选择如何处理抓取到的有价值数据,譬如是存储还是直接使用,是如何存储等。

以上几个套路摸索清楚以后就可以开始编写爬虫代码了,不过这时候还是有很多代码套路需要注意的,譬如 URL 的重复爬取、无效 URL 的剔除、爬虫欺骗、爬取异常处理等,如果想要自己的爬虫十分健壮,上面这些套路似乎都是必须要考虑的。

当然了,上面说的只是爬虫基础的核心事项,大型爬虫项目涉及的知识点就更加琐碎了,随着这个系列的渐进,我们会慢慢接触到的,下面我们先小牛试刀一把。

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载,请尊重作者劳动成果。私信联系我】

3 实战一把,先爬起来嗨

BB 了辣么多基础,还没有任何实战,搞毛线啊!Talk is easy, show me the code!既然是 Python3.X 爬虫实战系列,所以我们先让自己爬起来,故我们先来看看一个爬虫的常规套路流程结构,如下图(此图引用自网络):

这里写图片描述

看到了吧,一个爬虫的核心流程其实就是拿到一个 URL,下载下来这个 URL 指定的数据(网页或者结构化数据),解析出有价值的数据供自己使用,所以其实爬虫的核心机制流程就是不停的重复执行这个流程,日复一日的帮你在那各种爬呀爬呀爬。

依据上面的爬虫流程图,下面我们给出一个简单的爬虫程序,以便理解和感觉爬虫的魅力。下面是一个深度爬取百度百科 Android 词条简介及其衍生词条简介的实例,具体可以点击我在 github 查看该爬虫模块源码,这个小爬虫程序不是那么健壮,但是足以说明上面的流程图,该小爬虫包结构如下图:
这里写图片描述
我们在命令行执行 python3 spider_main.py 或者在 PyCharm 中点击 spider_main.py 文件右键运行就能看到爬虫开始爬取数据了(注意:该小爬虫依赖 BeautifulSoup 外部模块,如果没安装建议运行前先使用 pip 进行安装,命令为 pip install beautifulsoup4;其次该小爬虫默认只深度爬取 30 个链接),最终 30 个链接爬取完成后会在当前目录下自动输出了一个名为 out_2017-06-13_21:55:57.html 的 HTML 页面的表格,我们可以打开文件发现爬取的结果如下:

这里写图片描述

怎么样?我们爬取了百度百科一些关于 Android 和深度链接的名词介绍,然后依据自己喜好输出了一张 WEB 页面,当然咯,我们可以把这些数据写入数据库,再用 PHP 等编写 RESTFUL 接口通过 JSON 结构化语句返回给 APP 使用,赞不赞,再也不用为了自己做个小 App 到处去寻找免费的 API(譬如去聚合数据寻找),完全可以解放双手自动抓取和使用,不过一定不要未经授权直接抓取给商业 APP 使用,这可能会被起诉的。

下面是 https://github.com/yanbober/SmallReptileTraining/tree/master/AndroidSpider 这个小爬虫的源码,大家可以对照上面的爬虫流程图进行对比。

'''
spider_main.py 上面爬虫流程图中的[调度器]
面向对象写法,调度器负责循环从 UrlManager 获取爬取链接,然后交给 HtmlDownLoader 下载,然后把下载内容交给 HtmlParser 解析,然后把有价值数据输出给 HtmlOutput 进行应用。
'''
class SpiderMain(object):def __init__(self):self.urls = url_manager.UrlManager()self.downloader = html_downloader.HtmlDownLoader()self.parser = html_parser.HtmlParser()self.out_put = html_output.HtmlOutput()def craw(self, root_url):count = 1self.urls.add_new_url(root_url)while self.urls.has_new_url():try:new_url = self.urls.get_new_url()print("craw %d : %s" % (count, new_url))html_content = self.downloader.download(new_url)new_urls, new_data = self.parser.parse(new_url, html_content, "utf-8")self.urls.add_new_urls(new_urls)self.out_put.collect_data(new_data)#默认只爬取了深度 30,不然太慢,自己可以修改。if count >= 30:breakcount = count + 1except Exception as e:print("craw failed!\n"+str(e))self.out_put.output_html()if __name__ == "__main__":rootUrl = "http://baike.baidu.com/item/Android"objSpider = SpiderMain()objSpider.craw(rootUrl)
'''
url_manager.py 上面爬虫流程图中的[URL 管理器]
负责管理深度 URL 链接和去重等机制。
'''
class UrlManager(object):def __init__(self):self.new_urls = set()self.used_urls = set()def add_new_url(self, url):if url is None:returnif url not in self.new_urls and url not in self.used_urls:self.new_urls.add(url)def add_new_urls(self, urls):if urls is None or len(urls) == 0:returnfor url in urls:self.add_new_url(url)def has_new_url(self):return len(self.new_urls) > 0def get_new_url(self):temp_url = self.new_urls.pop()self.used_urls.add(temp_url)return temp_url
'''
html_downloader.py 上面爬虫流程图中的[下载器]
负责对指定的 URL 网页内容进行下载获取,这里只是简单处理了 HTTP CODE 200,实质应该依据 400、500 等分情况进行重试等机制处理。
'''
class HtmlDownLoader(object):def download(self, url):if url is None:return Noneresponse = urllib.request.urlopen(url)if response.getcode() != 200:return Nonereturn response.read()
'''
html_parser.py 上面爬虫流程图中的[解析器]
负责对下载器下载下来的网页内容进行解析,解析规则就是我们自己定义的感兴趣的内容,这里我们只分析网页后解析出 url、title、content,其他的不关心,解析好的数据通过字典返回。
'''
class HtmlParser(object):def parse(self, url, content, html_encode="utf-8"):if url is None or content is None:returnsoup = BeautifulSoup(content, "html.parser", from_encoding=html_encode)new_urls = self._get_new_urls(url, soup)new_data = self._get_new_data(url, soup)return new_urls, new_datadef _get_new_urls(self, url, soup):new_urls = set()links = soup.find_all("a", href=re.compile(r"/item/\w+"))for link in links:url_path = link["href"]new_url = urljoin(url, url_path)new_urls.add(new_url)return new_urlsdef _get_new_data(self, url, soup):data = {"url": url}title_node = soup.find("dd", class_="lemmaWgt-lemmaTitle-title").find("h1")data["title"] = title_node.get_text()summary_node = soup.find("div", class_="lemma-summary")data["summary"] = summary_node.get_text()return data
'''
html_output.py 上面爬虫流程图中的[应用器]
负责对解析后的数据应用,这里简单用一个 WEB 页面把爬取的所有存在在 datas 列表的数据以 Table 输出。
'''
class HtmlOutput(object):def __init__(self):self.datas = []def collect_data(self, data):if data is None:returnself.datas.append(data)def output_html(self):file_name = time.strftime("%Y-%m-%d_%H:%M:%S")with open("out_%s.html" % file_name, "w") as f_out:f_out.write("<html>")f_out.write(r'<head>'r'<link rel="stylesheet" 'r'href="https://cdn.bootcss.com/bootstrap/3.3.7/css/bootstrap.min.css" 'r'integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" 'r'crossorigin="anonymous"></head>')f_out.write("<body>")f_out.write(r'<table class="table table-bordered table-hover">')item_css = ['active', 'success', 'warning', 'info']for data in self.datas:index = self.datas.index(data) % len(item_css)f_out.write(r'<tr class="'+item_css[index]+r'">')f_out.write('<td>%s</td>' % data["url"])f_out.write('<td>%s</td>' % data["title"])f_out.write('<td>%s</td>' % data["summary"])f_out.write("</tr>")f_out.write("</table>")f_out.write("</body>")f_out.write("</html>")

哇呜!就是这么赞,怎么样,到此有没有对 Python 小爬虫产生一个整体的认知呢,如果表示了解了,那么我们下一篇会循序渐进的谈谈其他 Python 爬虫技术点(当然了,上面代码虽然很少,但是你可能还是觉得有些看不懂,那就的自己去补习下相关知识了,至于细节不在本系列探讨范围)。

^-^当然咯,看到这如果发现对您有帮助的话不妨扫描二维码赏点买羽毛球的小钱(现在球也挺贵的),既是一种鼓励也是一种分享,谢谢!
这里写图片描述

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载,请尊重作者劳动成果。私信联系我】

这篇关于Python3.X 爬虫实战(先爬起来嗨)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/397685

相关文章

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

Python3中Sanic中间件的使用

《Python3中Sanic中间件的使用》Sanic框架中的中间件是一种强大的工具,本文就来介绍Python3中Sanic中间件的使用,具有一定的参考价值,感兴趣的可以了解一下... 目录Sanic 中间件的工作流程中间件的使用1. 全局中间件2. 路由中间件3. 异常处理中间件4. 异步中间件5. 优先级

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

滚雪球学Java(87):Java事务处理:JDBC的ACID属性与实战技巧!真有两下子!

咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE啦,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好习惯,别被干货淹没了哦~ 🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,助你一臂之力,带你早日登顶🚀,欢迎大家关注&&收藏!持续更新中,up!up!up!! 环境说明:Windows 10

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

springboot实战学习(1)(开发模式与环境)

目录 一、实战学习的引言 (1)前后端的大致学习模块 (2)后端 (3)前端 二、开发模式 一、实战学习的引言 (1)前后端的大致学习模块 (2)后端 Validation:做参数校验Mybatis:做数据库的操作Redis:做缓存Junit:单元测试项目部署:springboot项目部署相关的知识 (3)前端 Vite:Vue项目的脚手架Router:路由Pina:状态管理Eleme

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目