教程+资源,python scrapy实战爬取知乎最性感妹子的爆照合集(12G)!

本文主要是介绍教程+资源,python scrapy实战爬取知乎最性感妹子的爆照合集(12G)!，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

2019独角兽企业重金招聘Python工程师标准>>>

之前在知乎看到一位大牛（二胖）写的一篇文章：python爬取知乎最受欢迎的妹子（大概题目是这个，具体记不清了），但是这位二胖哥没有给出源码，而我也没用过python,正好顺便学一学,所以我决定自己动手搞一搞.
爬取已经完成,文末有 python的源码和妹子图片的百度云地址

爬虫还是要用python(之前用过一个国人大牛写的java爬虫框架 webmagic)，所以花了点时间看了下网上python的教程，语法什么的（当然什么都没记住~），然后看了看scrapy这个爬虫框架，大概了解了其中各个组件的作用,每个组件的作用和爬取数据的几个步骤.

知乎二胖哥的思路大致如下：

1 手动找到部分宅男, 抓取他们关注的女性用户和部分问题的女性回答者
作为 "初始美女"群体
2 抓取 "初始美女" 所有的粉丝, 作为 "宅男群体"
3 再抓取 "宅男群体" 关注的人里面取top 1000, 得到知乎最受欢迎的美女.
我和二胖哥的目的有所不同,
二胖是要找到最受欢迎的妹子,
而我的目的是:
1 学习使用python 的 scrapy框架
2 爬取精彩又性感的文章和图片.
所以我通过两个方面开始爬取:
某些女生回答的多的问题, 比如: 拥有大长腿是怎样的感觉?
收藏夹. 知乎有收藏夹功能,把不同问题下的答案放到一个收藏加下.我关注了一个叫做知乎妹子爆照合集的收藏夹
我大概爬取了12G的图片资源(因为我的服务器只有12G的剩余空间了...)

我存储图片的目录是按照 问题id/回答id的格式存放的.