Python3.6爬虫集合 xpath bs4 re 爬51job前程无忧招聘信息 豆瓣音乐等等

本文主要是介绍Python3.6爬虫集合 xpath bs4 re 爬51job前程无忧招聘信息 豆瓣音乐等等,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

总结一下这两天自己写的爬虫,之前一直用框架爬虫,感觉有必要熟练最基础的没有框架爬虫才能让我更好理解框架,代码在链接内,代码中都有详细的注释

1. 发送邮件,这里选择发送网页邮件,其他邮件发送可以看廖雪峰老师的教程

    * 邮件协议为SMTP,端口为25
    * 需要模块 email(构造邮件) smtplib(发送邮件)
    *  代码传送门
    * 无具体注意事项


2. xpath爬取豆瓣音乐
    * 不利用框架,网页解析可以用正则(re),lxml或者bs,正则爬虫确实比较费劲,需要仔细点,其中lxml解析快,语法也简单,因此选用lxml
    * / 从根节点开始扫描
        // 从当前节点开始向后扫描
        /text() 获取该节点的文本内容
        . 选择当前节点
        .. 选取当前节点的父节点
    * 选取豆瓣音乐的前250条(豆瓣图书类似)
    * 安装xpth helper插件可以copy xpth,能检查自己写的对不对
    * 需要模块 lxml 一般都利用其中的etree.HTML
    *  代码传送门
    

3. 爬取猪八戒数据并切防止ip被封,并把数据存入excel中
    * 需要模块bs4 requests lxml xlwt xlrd
    *  IP生成器传送门地址取自国内高匿名代理IP网站
    *  代码传送门

4. 模拟登录知乎
    * 需要模块 Selenium
    * 此次用的火狐浏览器登录,因为火狐驱动和浏览器没有版本限制,需要将driver放在python.ext同级目录下,如若还不行就将火狐添加到Path中   driver驱动传送门
    *  代码传送门
    
5. 分析朋友QQ空间状态
    * 需要用到的模块selenium lxml wordcloud(词云) matplotlib(生成词云图片) jieba分词
    * 需要注意利用webdriver选取ifame,否则出现可能找不到控件问题,具体代码有注释driver.switch_to.frame
    *  需要的ttf字体资源传送门
    *  代码传送门
    * 上述代码是对指定的QQ好友空间内容获取,写入文件,然后才用词云进行分析
    *  词云分析传送门其实用不用结巴分词都可以,词云分析这里就简单的展示了一下,没有对数据进行清洗

 


6. 爬取指定人微博数据
    * 需要的模块 Selenium lxml
    * 需要模拟登录微博,然后再对指定人的微博页进行爬取数据,不登录微博只能爬取一页数据,貌似现在第一次在浏览器登录微博后会有个手机验证,此时模拟不是第一次在该浏览器登录
    * 爬取完后再通过之前的词云分析代码分析
    *  代码传送门
    
7. 根据输入条件爬取相亲网站上的美女并下载对应美图和记录详细信息
    * 需要用到的模块 Selenium
    * 没有下一页,往下滑能一直加载,需要F12到network中查看,对应有page属性的其实

    * 代码传送门

8. 爬取前程无忧上的招聘信息
    * 三种方式爬取,bs4、xpath、re
    * xpath方式:模拟搜索,用户输入需要找的职位进行爬取,模拟点击下一页代码传送门
    * bs4方式:对网址分析,用户输入职位,按固定页数进行分页爬取代码传送门
    * re方式:正则这块确实有点坑代码传送门

这篇关于Python3.6爬虫集合 xpath bs4 re 爬51job前程无忧招聘信息 豆瓣音乐等等的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/840018

相关文章

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

uva 11178 计算集合模板题

题意: 求三角形行三个角三等分点射线交出的内三角形坐标。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vector>#include <

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

Java基础回顾系列-第六天-Java集合

Java基础回顾系列-第六天-Java集合 集合概述数组的弊端集合框架的优点Java集合关系图集合框架体系图java.util.Collection接口 List集合java.util.List接口java.util.ArrayListjava.util.LinkedListjava.util.Vector Set集合java.util.Set接口java.util.HashSetjava

【408数据结构】散列 (哈希)知识点集合复习考点题目

苏泽  “弃工从研”的路上很孤独,于是我记下了些许笔记相伴,希望能够帮助到大家    知识点 1. 散列查找 散列查找是一种高效的查找方法,它通过散列函数将关键字映射到数组的一个位置,从而实现快速查找。这种方法的时间复杂度平均为(

Linux命令(11):系统信息查看命令

系统 # uname -a # 查看内核/操作系统/CPU信息# head -n 1 /etc/issue # 查看操作系统版本# cat /proc/cpuinfo # 查看CPU信息# hostname # 查看计算机名# lspci -tv # 列出所有PCI设备# lsusb -tv

Golang 网络爬虫框架gocolly/colly(五)

gcocolly+goquery可以非常好地抓取HTML页面中的数据,但碰到页面是由Javascript动态生成时,用goquery就显得捉襟见肘了。解决方法有很多种: 一,最笨拙但有效的方法是字符串处理,go语言string底层对应字节数组,复制任何长度的字符串的开销都很低廉,搜索性能比较高; 二,利用正则表达式,要提取的数据往往有明显的特征,所以正则表达式写起来比较简单,不必非常严谨; 三,使

Golang网络爬虫框架gocolly/colly(四)

爬虫靠演技,表演得越像浏览器,抓取数据越容易,这是我多年爬虫经验的感悟。回顾下个人的爬虫经历,共分三个阶段:第一阶段,09年左右开始接触爬虫,那时由于项目需要,要访问各大国际社交网站,Facebook,myspace,filcker,youtube等等,国际上叫得上名字的社交网站都爬过,大部分网站提供restful api,有些功能没有api,就只能用http抓包工具分析协议,自己爬;国内的优酷、