Python3.6爬虫集合 xpath bs4 re 爬51job前程无忧招聘信息 豆瓣音乐等等

本文主要是介绍Python3.6爬虫集合 xpath bs4 re 爬51job前程无忧招聘信息 豆瓣音乐等等,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

总结一下这两天自己写的爬虫,之前一直用框架爬虫,感觉有必要熟练最基础的没有框架爬虫才能让我更好理解框架,代码在链接内,代码中都有详细的注释

1. 发送邮件,这里选择发送网页邮件,其他邮件发送可以看廖雪峰老师的教程

    * 邮件协议为SMTP,端口为25
    * 需要模块 email(构造邮件) smtplib(发送邮件)
    *  代码传送门
    * 无具体注意事项


2. xpath爬取豆瓣音乐
    * 不利用框架,网页解析可以用正则(re),lxml或者bs,正则爬虫确实比较费劲,需要仔细点,其中lxml解析快,语法也简单,因此选用lxml
    * / 从根节点开始扫描
        // 从当前节点开始向后扫描
        /text() 获取该节点的文本内容
        . 选择当前节点
        .. 选取当前节点的父节点
    * 选取豆瓣音乐的前250条(豆瓣图书类似)
    * 安装xpth helper插件可以copy xpth,能检查自己写的对不对
    * 需要模块 lxml 一般都利用其中的etree.HTML
    *  代码传送门
    

3. 爬取猪八戒数据并切防止ip被封,并把数据存入excel中
    * 需要模块bs4 requests lxml xlwt xlrd
    *  IP生成器传送门地址取自国内高匿名代理IP网站
    *  代码传送门

4. 模拟登录知乎
    * 需要模块 Selenium
    * 此次用的火狐浏览器登录,因为火狐驱动和浏览器没有版本限制,需要将driver放在python.ext同级目录下,如若还不行就将火狐添加到Path中   driver驱动传送门
    *  代码传送门
    
5. 分析朋友QQ空间状态
    * 需要用到的模块selenium lxml wordcloud(词云) matplotlib(生成词云图片) jieba分词
    * 需要注意利用webdriver选取ifame,否则出现可能找不到控件问题,具体代码有注释driver.switch_to.frame
    *  需要的ttf字体资源传送门
    *  代码传送门
    * 上述代码是对指定的QQ好友空间内容获取,写入文件,然后才用词云进行分析
    *  词云分析传送门其实用不用结巴分词都可以,词云分析这里就简单的展示了一下,没有对数据进行清洗

 


6. 爬取指定人微博数据
    * 需要的模块 Selenium lxml
    * 需要模拟登录微博,然后再对指定人的微博页进行爬取数据,不登录微博只能爬取一页数据,貌似现在第一次在浏览器登录微博后会有个手机验证,此时模拟不是第一次在该浏览器登录
    * 爬取完后再通过之前的词云分析代码分析
    *  代码传送门
    
7. 根据输入条件爬取相亲网站上的美女并下载对应美图和记录详细信息
    * 需要用到的模块 Selenium
    * 没有下一页,往下滑能一直加载,需要F12到network中查看,对应有page属性的其实

    * 代码传送门

8. 爬取前程无忧上的招聘信息
    * 三种方式爬取,bs4、xpath、re
    * xpath方式:模拟搜索,用户输入需要找的职位进行爬取,模拟点击下一页代码传送门
    * bs4方式:对网址分析,用户输入职位,按固定页数进行分页爬取代码传送门
    * re方式:正则这块确实有点坑代码传送门

这篇关于Python3.6爬虫集合 xpath bs4 re 爬51job前程无忧招聘信息 豆瓣音乐等等的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/840018

相关文章

在C#中获取端口号与系统信息的高效实践

《在C#中获取端口号与系统信息的高效实践》在现代软件开发中,尤其是系统管理、运维、监控和性能优化等场景中,了解计算机硬件和网络的状态至关重要,C#作为一种广泛应用的编程语言,提供了丰富的API来帮助开... 目录引言1. 获取端口号信息1.1 获取活动的 TCP 和 UDP 连接说明:应用场景:2. 获取硬

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

C#实现获取电脑中的端口号和硬件信息

《C#实现获取电脑中的端口号和硬件信息》这篇文章主要为大家详细介绍了C#实现获取电脑中的端口号和硬件信息的相关方法,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 我们经常在使用一个串口软件的时候,发现软件中的端口号并不是普通的COM1,而是带有硬件信息的。那么如果我们使用C#编写软件时候,如

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出

C#读取本地网络配置信息全攻略分享

《C#读取本地网络配置信息全攻略分享》在当今数字化时代,网络已深度融入我们生活与工作的方方面面,对于软件开发而言,掌握本地计算机的网络配置信息显得尤为关键,而在C#编程的世界里,我们又该如何巧妙地读取... 目录一、引言二、C# 读取本地网络配置信息的基础准备2.1 引入关键命名空间2.2 理解核心类与方法

基于Redis有序集合实现滑动窗口限流的步骤

《基于Redis有序集合实现滑动窗口限流的步骤》滑动窗口算法是一种基于时间窗口的限流算法,通过动态地滑动窗口,可以动态调整限流的速率,Redis有序集合可以用来实现滑动窗口限流,本文介绍基于Redis... 滑动窗口算法是一种基于时间窗口的限流算法,它将时间划分为若干个固定大小的窗口,每个窗口内记录了该时间

使用Python检查CPU型号并弹出警告信息

《使用Python检查CPU型号并弹出警告信息》本教程将指导你如何编写一个Python程序,该程序能够在启动时检查计算机的CPU型号,如果检测到CPU型号包含“I3”,则会弹出一个警告窗口,感兴趣的小... 目录教程目标方法一所需库步骤一:安装所需库步骤二:编写python程序步骤三:运行程序注意事项方法二

PostgreSQL如何查询表结构和索引信息

《PostgreSQL如何查询表结构和索引信息》文章介绍了在PostgreSQL中查询表结构和索引信息的几种方法,包括使用`d`元命令、系统数据字典查询以及使用可视化工具DBeaver... 目录前言使用\d元命令查看表字段信息和索引信息通过系统数据字典查询表结构通过系统数据字典查询索引信息查询所有的表名可

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

uva 11178 计算集合模板题

题意: 求三角形行三个角三等分点射线交出的内三角形坐标。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vector>#include <