光棍节专题:python程序员如何利用爬虫抓知乎用户找女朋友

本文主要是介绍光棍节专题:python程序员如何利用爬虫抓知乎用户找女朋友,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言:本文主要讲scrapy框架的原理和使用,建议至少在理解掌握python爬虫原理后再使用框架(不要问我为什么,我哭给你看)。

双十一马上就要来了,在举国一片“买买买”的呼声中,单身汪的咆哮声也愈发凄厉了。作为一个Python程序员,要如何找到小姐姐,避开暴击伤害,在智中取胜呢?于是就有了以下的对话:

so今天我们的目标是,爬社区的小姐姐而且,我们又要用到新的姿势(雾)了scrapy爬虫框架

1.scrapy原理

在写过几个爬虫程序之后,我们就知道,利用爬虫获取数据大概的步骤:请求网页,获取网页,匹配信息,下载数据,数据清洗,存入数据库。

scrapy是一个很有名的爬虫框架,可以很方便的进行网页信息爬取。那么scrapy到底是如何工作的呢?之前在网上看了不少scrapy入门的教程,大多数入门教程都配有这张图。

_(:зゝ∠)_也不知道是这张图实在太经典了,还是程序员们都懒得画图,第一次看到这个图的时候,米酱的心情是这样的

经过了一番深入的理解,大概知道这幅图的意思,让我来举个栗子(是的,我又要举奇怪的栗子了):

scrapy原理图之我要吃好吃的

当我们想吃东西的时候,我们会出门,走到街上,寻找一家想吃的点,然后点餐,服务员再通知厨房去做,最后菜到餐桌上,或者被打包带走。这就是爬虫程序在做的事,它要将所有获取数据需要进行的操作,都写好。

而scrapy就像一个点餐app一般的存在,在订餐列表(spiders)选取自己目标餐厅里想吃的菜(items),在收货(pipeline)处写上自己的收货地址(存储方式),点餐系统(scrapy engine)会根据订餐情况要求商铺(Internet)的厨房(download)将菜做好,由于会产生多个外卖取货订单(request),系统会根据派单(schedule)分配外卖小哥从厨房取货(request)和送货(response)。说着说着我都饿了。。。。

什么意思呢?在使用scrapy时,我们只需要设置spiders(想要爬取的内容),pipeline(数据的清洗,数据的存储方式),还有一个middlewares,是各功能间对接时的一些设置,就可以不用操心其他的过程,一切交给scrapy模块来完成。

2.创建scrapy工程

安装scrapy之后,创建一个新项目

$ scrapy startproject zhihuxjj

我用的是pycharm编译器,在spiders文件下创建zhihuxjj.py

在zhihuxjj.py这个文件中,我们要编写我们的爬取规则。

3.爬取规则制定(spider)

创建好了项目,让我们来看一下我们要吃的店和菜…哦不,要爬的网站和数据。

我选用了知乎作为爬取平台,知乎是没有用户从1到n的序列id的,每个人可以设置自己的个人主页id,且为唯一。所以采选了选取一枚种子用户,爬取他的关注者,也可以关注者和粉丝一起爬,考虑到粉丝中有些三无用户,我仅选择了爬取关注者列表,再通过关注者主页爬取关注者的关注者,如此递归。

对于程序的设计,是这样的。

spider流程设计

start url是scrapy中的一个标志性的值,它用于设置爬虫程序的开始,也就是从哪里开始爬,按照设定,从种子用户个人主页开始爬便是正义,但是考虑到个人主页的链接会进行重复使用,所以在这里我将起始url设成了知乎主页。

之后就是种子用户的个人主页,知乎粉丝多的大V很多,但是关注多的人就比较难发现了,这里我选择了知乎的黄继新,联合创始人,想必关注了不少优质用户(≖‿≖)✧。

分析一下个人主页可知,个人主页由’https://www.zhihu.com/people/’ + 用户id 组成,我们要获取的信息是用callback回调函数(敲黑板!!划重点!!)的方式设计,这里一共设计了俩个回调函数:用户的关注列表和关注者的个人信息。

使用chrome浏览器查看上图的页面可知获取关注列表的url,以及关注者的用户id。

将鼠标放在用户名上。

可以获得个人用户信息的url。分析url可知:

关注者列表链接构成:'https://www.zhihu.com/api/v4/members/' + '用户id' + '/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset=0&limit=20'
个人信息链接构成:'https://www.zhihu.com/api/v4/members/' + '用户id' + '?include=allow_message%2Cis_followed%2Cis_following%2Cis_org%2Cis_blocking%2Cemployments%2Canswer_count%2Cfollower_count%2Carticles_count%2Cgender%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics'

so,我们在上一节中创建的zhihuxjj.py文件中写入以下代码。

import json
from zhihuxjj.items import ZhihuxjjItem
from scrapy import Spider,Requestclass ZhihuxjjSpider(Spider):name='zhihuxjj' #scrapy用于区别其他spider的名字,具有唯一性。allowed_domains = ["www.zhihu.com"] #爬取范围start_urls = ["https://www.zhihu.com/"]start_user = "jixin"followees_url = 'https://www.zhihu.com/api/v4/members/{user}/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset={offset}&limit=20' #关注列表网址user_url = 'https://www.zhihu.com/api/v4/members/{user}?include=locations,employments,gender,educations,business,voteup_count,thanked_Count,follower_count,following_count,cover_url,following_topic_count,following_question_count,following_favlists_count,following_columns_count,avatar_hue,answer_count,articles_count,pins_count,question_count,commercial_question_count,favorite_count,favorited_count,logs_count,marked_answers_count,marked_answers_text,message_thread_token,account_status,is_active,is_force_renamed,is_bind_sina,sina_weibo_url,sina_weibo_name,show_sina_weibo,is_blocking,is_blocked,is_following,is_followed,mutual_followees_count,vote_to_count,vote_from_count,thank_to_count,thank_from_count,thanked_count,description,hosted_live_count,participated_live_count,allow_message,industry_category,org_name,org_homepage,badge[?(type=best_answerer)].topics' #个人信息链接def start_requests(self):yield Request(self.followees_url.format(user=self.start_user,offset=0),callback=self.parse_fo) #回调种子用户的关注列表yield Request(self.user_url.format(user=self.start_user,include = self.user_include),callback=self.parse_user) #回调种子用户的个人信息def parse_user(self, response):result = json.loads(response.text)print(result)item = ZhihuxjjItem()item['user_name'] = result['name']item['sex'] = result['gender']  # gender为1是男,0是女,-1是未设置item['user_sign'] = result['headline']item['user_avatar'] = result['avatar_url_template'].format(size='xl')item['user_url'] = 'https://www.zhihu.com/people/' + result['url_token']if len(result['locations']):item['user_add'] = result['locations'][0]['name']else:item['user_add'] = ''yield itemdef parse_fo(self, response):results = json.loads(response.text)for result in results['data']:yield Request(self.user_url.format(user=result['url_token'], include=self.user_include),callback=self.parse_user)yield Request(self.followees_url.format(user=result['url_token'], offset=0),callback=self.parse_fo)  # 对关注者的关注者进行遍历,爬取深度depth+=1if results['paging']['is_end'] is False: #关注列表页是否为尾页next_url = results['paging']['next'].replace('http','https')yield Request(next_url,callback=self.parse_fo)else:pass

这里需要划重点的是yield的用法,以及item[‘name’],将爬取结果赋值给item,就是告诉系统,这是我们要选的菜…啊呸…要爬的目标数据。

4.设置其他信息

在items.py文件中,按照spider中设置的目标数据item,添加对应的代码。

import scrapy
class ZhihuxjjItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()user_name = scrapy.Field()sex  = scrapy.Field()user_sign = scrapy.Field()user_url = scrapy.Field()user_avatar = scrapy.Field()user_add = scrapy.Field()pass

在pipeline.py中添加存入数据库的代码(数据库咋用上一篇文章写了哦~)。

import pymysqldef dbHandle():conn = pymysql.connect(host='localhost',user='root',passwd='数据库密码',charset='utf8',use_unicode=False)return connclass ZhihuxjjPipeline(object):def process_item(self, item, spider):dbObject = dbHandle()  # 写入数据库cursor = dbObject.cursor()sql = "insert into xiaojiejie.zhihu(user_name,sex,user_sign,user_avatar,user_url,user_add) values(%s,%s,%s,%s,%s,%s)"param = (item['user_name'],item['sex'],item['user_sign'],item['user_avatar'],item['user_url'],item['user_add'])try:cursor.execute(sql, param)dbObject.commit()except Exception as e:print(e)dbObject.rollback()return item

因为使用了pipeline.py,所以我们还需要再setting.py文件中,将ITEM_PIPELINE注释解除,这里起到连接两个文件的作用。

到这里,基本就都设置好了,程序基本上就可以跑了。不过因为scrapy是遵循robots.txt法则的,所以让我们来观察一下知乎的法则https://www.zhihu.com/robots.txt

emmmmmmm,看完法则了吗,很好,然后我们在setting.py中,将ROBOTSTXT_OBEY 改成 False。(逃

好像…还忘了点什么,对了,忘记设置headers了。通用的设置headers的方法同样是在setting.py文件中,将DEFAULT_REQUEST_HEADERS的代码注释状态取消,并设置模拟浏览器头。知乎是要模拟登录的,如果使用游客方式登录,就需要添加authorization,至于这个authorization是如何获取的,我,就,不,告,诉,你(逃

DEFAULT_REQUEST_HEADERS = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36",'authorization': 'oauth c3cef7c66a1843f8b3a9e6a1e3160e20'
}

为了减少服务器压力&防止被封,解除DOWNLOAD_DELAY注释状态,这是设置下载延迟,将下载延迟设为3(robots法则里要求是10,但10实在太慢了_(:зゝ∠)_知乎的程序员小哥哥看不见这句话看不见这句话…

写到这里你会发现,很多我们需要进行的操作,scrapy都已经写好了,只需要将注释去掉,再稍作修改,就可以实现功能了。scrapy框架还有很多功能,可以阅读官方文档了解。

5.运行scrapy文件

写好scrapy程序后,我们可以在终端输入

$ scrapy crawl zhihuxjj

运行文件。

但也可以在文件夹中添加main.py,并添加以下代码。

然后直接用pycharm运行main.py文件即可,然后我们就可以愉快的爬知乎用户啦~(帅哥们小姐姐我来啦~

6.查找小姐姐

经过了X天的运行,_(:зゝ∠)_爬到了7w条用户数据,爬取深度5。(这爬取速度让我觉得有必要上分布式爬虫了…这个改天再唠)

有了数据我们就可以选择,同城市的用户进行研究了……

先国际惯例的分析一下数据。

知乎用户性别分布

在7w用户中,明显男性超过了半数,标明自己是女性的用户只占了30%左右,还有一部分没有注明性别,优质的小姐姐还是稀缺资源呀~

再来看看小姐姐们都在哪个城市。(从7w用户中筛选出性别女且地址信息不为空的用户)

知乎女性用户位置分布

看来小姐姐们还是集中在北上广深杭的,所以想发现优质小姐姐的男孩纸们还是要向一线看齐啊,当然也不排除在二三线的小姐姐们没有标记处自己的地理位置。

emmmmm……这次的分析,就到此为止,你们可以去撩小姐姐们了。(逃

7.研究小姐姐

意不意外?开不开心?这里还有一章。正所谓,授之以鱼,不如授之以渔;撒了心灵鸡汤,还得加一只心灵鸡腿;找到了小姐姐,我们还要了解小姐姐…………

让我再举个栗子~来研究一个小姐姐。(知乎名:动次,已获取小姐姐授权作为示例。)

知乎用户:动次

让我们来爬一下她的动态,chrome右键检查翻network这些套路我就不说了,直接将研究目标。

赞同的答案和文章(了解小姐姐的兴趣点)
发布的答案和文章(了解小姐姐的世界观、人生观、价值观)
关注的问题和收藏夹(了解小姐姐需求)
提出的问题(了解小姐姐的疑惑)

代码也不贴了,会放在gayhub的,来看一下输出。

研究动次的结果输出

因为你乎风格,所以对停用词进行了一些加工,添加了“如何”“看待”“体验”等词语,得到了小姐姐回答问题的词频。小姐姐的回答里出现了喜欢、朋友、爷爷等词语。

动次回答问题的词频

还有!!在关注、赞同和输出中,都有的词(✪ω✪)。(是不是可以靠美味捕获小姐姐呢……

再来一张刘看山背景的,答题词云。

动次的回答问题词云

8.后记

本文涉及项目会持续更新,会将研究对象拓展至各平台,并进行后续优化,有兴趣的盆友可以关注gayhub项目。

结尾引用知乎用户陈壮壮在《当你追求女生时,你们聊些什么?》的回答。(因为穷我就不申请转载了你们自己点进去看吧(ಥ﹏ಥ),你们只要知道我有颗带你们撩妹的心就行了)




我的公众平台,欢迎关注:

  • 微信公众号:大吉大利小米酱
    公众号
  • 简书:大吉大利小米酱
  • 知乎:大吉大利小米酱
  • CSDN:大吉大利小米酱
  • GitHub:https://github.com/otakurice

有想法交流的可以由下面几种方式联系我:

  • 知识星球:
    知识星球
  • Email:vermilion1990@126.com
  • QQ:616814925(请注明联系目的)

这篇关于光棍节专题:python程序员如何利用爬虫抓知乎用户找女朋友的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/399815

相关文章

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

python 字典d[k]中key不存在的解决方案

《python字典d[k]中key不存在的解决方案》本文主要介绍了在Python中处理字典键不存在时获取默认值的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录defaultdict:处理找不到的键的一个选择特殊方法__missing__有时候为了方便起见,

使用Python绘制可爱的招财猫

《使用Python绘制可爱的招财猫》招财猫,也被称为“幸运猫”,是一种象征财富和好运的吉祥物,经常出现在亚洲文化的商店、餐厅和家庭中,今天,我将带你用Python和matplotlib库从零开始绘制一... 目录1. 为什么选择用 python 绘制?2. 绘图的基本概念3. 实现代码解析3.1 设置绘图画

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

python实现自动登录12306自动抢票功能

《python实现自动登录12306自动抢票功能》随着互联网技术的发展,越来越多的人选择通过网络平台购票,特别是在中国,12306作为官方火车票预订平台,承担了巨大的访问量,对于热门线路或者节假日出行... 目录一、遇到的问题?二、改进三、进阶–展望总结一、遇到的问题?1.url-正确的表头:就是首先ur

基于Python实现PDF动画翻页效果的阅读器

《基于Python实现PDF动画翻页效果的阅读器》在这篇博客中,我们将深入分析一个基于wxPython实现的PDF阅读器程序,该程序支持加载PDF文件并显示页面内容,同时支持页面切换动画效果,文中有详... 目录全部代码代码结构初始化 UI 界面加载 PDF 文件显示 PDF 页面页面切换动画运行效果总结主