Python3.6爬虫集合 xpath bs4 re 爬51job前程无忧招聘信息 豆瓣音乐等等

本文主要是介绍Python3.6爬虫集合 xpath bs4 re 爬51job前程无忧招聘信息 豆瓣音乐等等,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

总结一下这两天自己写的爬虫,之前一直用框架爬虫,感觉有必要熟练最基础的没有框架爬虫才能让我更好理解框架,代码在链接内,代码中都有详细的注释

1. 发送邮件,这里选择发送网页邮件,其他邮件发送可以看廖雪峰老师的教程

    * 邮件协议为SMTP,端口为25
    * 需要模块 email(构造邮件) smtplib(发送邮件)
    *  代码传送门
    * 无具体注意事项


2. xpath爬取豆瓣音乐
    * 不利用框架,网页解析可以用正则(re),lxml或者bs,正则爬虫确实比较费劲,需要仔细点,其中lxml解析快,语法也简单,因此选用lxml
    * / 从根节点开始扫描
        // 从当前节点开始向后扫描
        /text() 获取该节点的文本内容
        . 选择当前节点
        .. 选取当前节点的父节点
    * 选取豆瓣音乐的前250条(豆瓣图书类似)
    * 安装xpth helper插件可以copy xpth,能检查自己写的对不对
    * 需要模块 lxml 一般都利用其中的etree.HTML
    *  代码传送门
    

3. 爬取猪八戒数据并切防止ip被封,并把数据存入excel中
    * 需要模块bs4 requests lxml xlwt xlrd
    *  IP生成器传送门地址取自国内高匿名代理IP网站
    *  代码传送门

4. 模拟登录知乎
    * 需要模块 Selenium
    * 此次用的火狐浏览器登录,因为火狐驱动和浏览器没有版本限制,需要将driver放在python.ext同级目录下,如若还不行就将火狐添加到Path中   driver驱动传送门
    *  代码传送门
    
5. 分析朋友QQ空间状态
    * 需要用到的模块selenium lxml wordcloud(词云) matplotlib(生成词云图片) jieba分词
    * 需要注意利用webdriver选取ifame,否则出现可能找不到控件问题,具体代码有注释driver.switch_to.frame
    *  需要的ttf字体资源传送门
    *  代码传送门
    * 上述代码是对指定的QQ好友空间内容获取,写入文件,然后才用词云进行分析
    *  词云分析传送门其实用不用结巴分词都可以,词云分析这里就简单的展示了一下,没有对数据进行清洗

 


6. 爬取指定人微博数据
    * 需要的模块 Selenium lxml
    * 需要模拟登录微博,然后再对指定人的微博页进行爬取数据,不登录微博只能爬取一页数据,貌似现在第一次在浏览器登录微博后会有个手机验证,此时模拟不是第一次在该浏览器登录
    * 爬取完后再通过之前的词云分析代码分析
    *  代码传送门
    
7. 根据输入条件爬取相亲网站上的美女并下载对应美图和记录详细信息
    * 需要用到的模块 Selenium
    * 没有下一页,往下滑能一直加载,需要F12到network中查看,对应有page属性的其实

    * 代码传送门

8. 爬取前程无忧上的招聘信息
    * 三种方式爬取,bs4、xpath、re
    * xpath方式:模拟搜索,用户输入需要找的职位进行爬取,模拟点击下一页代码传送门
    * bs4方式:对网址分析,用户输入职位,按固定页数进行分页爬取代码传送门
    * re方式:正则这块确实有点坑代码传送门

这篇关于Python3.6爬虫集合 xpath bs4 re 爬51job前程无忧招聘信息 豆瓣音乐等等的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/840018

相关文章

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

C#比较两个List集合内容是否相同的几种方法

《C#比较两个List集合内容是否相同的几种方法》本文详细介绍了在C#中比较两个List集合内容是否相同的方法,包括非自定义类和自定义类的元素比较,对于非自定义类,可以使用SequenceEqual、... 目录 一、非自定义类的元素比较1. 使用 SequenceEqual 方法(顺序和内容都相等)2.

C#实现系统信息监控与获取功能

《C#实现系统信息监控与获取功能》在C#开发的众多应用场景中,获取系统信息以及监控用户操作有着广泛的用途,比如在系统性能优化工具中,需要实时读取CPU、GPU资源信息,本文将详细介绍如何使用C#来实现... 目录前言一、C# 监控键盘1. 原理与实现思路2. 代码实现二、读取 CPU、GPU 资源信息1.

在C#中获取端口号与系统信息的高效实践

《在C#中获取端口号与系统信息的高效实践》在现代软件开发中,尤其是系统管理、运维、监控和性能优化等场景中,了解计算机硬件和网络的状态至关重要,C#作为一种广泛应用的编程语言,提供了丰富的API来帮助开... 目录引言1. 获取端口号信息1.1 获取活动的 TCP 和 UDP 连接说明:应用场景:2. 获取硬

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

C#实现获取电脑中的端口号和硬件信息

《C#实现获取电脑中的端口号和硬件信息》这篇文章主要为大家详细介绍了C#实现获取电脑中的端口号和硬件信息的相关方法,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 我们经常在使用一个串口软件的时候,发现软件中的端口号并不是普通的COM1,而是带有硬件信息的。那么如果我们使用C#编写软件时候,如

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出

C#读取本地网络配置信息全攻略分享

《C#读取本地网络配置信息全攻略分享》在当今数字化时代,网络已深度融入我们生活与工作的方方面面,对于软件开发而言,掌握本地计算机的网络配置信息显得尤为关键,而在C#编程的世界里,我们又该如何巧妙地读取... 目录一、引言二、C# 读取本地网络配置信息的基础准备2.1 引入关键命名空间2.2 理解核心类与方法

基于Redis有序集合实现滑动窗口限流的步骤

《基于Redis有序集合实现滑动窗口限流的步骤》滑动窗口算法是一种基于时间窗口的限流算法,通过动态地滑动窗口,可以动态调整限流的速率,Redis有序集合可以用来实现滑动窗口限流,本文介绍基于Redis... 滑动窗口算法是一种基于时间窗口的限流算法,它将时间划分为若干个固定大小的窗口,每个窗口内记录了该时间