Day:007(4) | Python爬虫:高效数据抓取的编程技术(scrapy框架使用)

本文主要是介绍Day:007(4) | Python爬虫:高效数据抓取的编程技术(scrapy框架使用),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Scrapy 中 Downloader 设置UA

        下载中间件是Scrapy请求/响应处理的钩子框架。这是一个轻、低层次的应用。
        通过可下载中间件,可以处理请求之前和请求之后的数据。
        如果使用下载中间件需要在Scrapy中的setting.py的配置DOWNLOADER_MIDDLEWARES才可以使用,

比如:

DOWNLOADER_MIDDLEWARES = {'myproject.middlewares.CustomDownloaderMiddleware': 543,
}

开发UserAgent下载中间件

问题
每次创建项目后,需要自己复制UserAgent到settings,比较繁琐



解决方案
开发下载中间件,设置UserAgent

代码 

from fake_useragent import UserAgentclass MyUserAgentMiddleware:def process_request(self, request,spider):request.headers.setdefault(b'UserAgent', UserAgent().chrome)

三方模块

pip install scrapy-fake-useragent==1.4.4

配置模块到Setting文件 

DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddlewares.useragent.User
AgentMiddleware': None,'scrapy.downloadermiddlewares.retry.RetryMid
dleware': None,'scrapy_fake_useragent.middleware.RandomUser
AgentMiddleware': 400,'scrapy_fake_useragent.middleware.RetryUserA
gentMiddleware': 401,
}

Scrapy 中 Downloader 设置代理 

        爬虫设置代理就是让别的服务器或电脑代替自己的服务器去获取数据

爬虫代理原理

代码

通过 request.meta['proxy'] 可以设置代理,如下: 

class MyProxyDownloaderMiddleware:def process_request(self, request,spider):# request.meta['proxy']='http://ip:port'# request.meta['proxy']='http://name:pwd@ip:port'request.meta['proxy']='http://139.224.211.212:8080'

下载中间件实战-Scrapy与Selenium结合 

        有的页面反爬技术比较高端,一时破解不了,这时我们就是可以考虑使用selenium来降低爬取的难度。

        问题来了,如何将Scrapy与Selenium结合使用呢?

        思考的思路: 只是用Selenium来帮助下载数据。因此可以考虑通过下载中间件来处理这块内容。

具体代码如下:

Spider文件

@classmethod
def from_crawler(cls, crawler, *args,**kwargs):spider = super(BaiduSpider,cls).from_crawler(crawler, *args, **kwargs)spider.chrome =webdriver.Chrome(executable_path='../tools/c
hromedriver.exe')crawler.signals.connect(spider.spider_closed, signal=signals.spider_closed)# connect里的参数# 1. 处罚事件后用哪个函数处理# 2. 捕捉哪个事件return spiderdef spider_closed(self, spider):spider.chrome.close()

middlewares文件 

def process_request(self, request, spider):  spider.chrome.get(request.url)html = spider.chrome.page_sourcereturn HtmlResponse(url =request.url,body = html,request =
request,encoding='utf-8')

Scrapy保存数据到多个数据库

目标网站:中国福利彩票网 双色球往期数据

 阳光开奖 (cwl.gov.cn)https://www.cwl.gov.cn/ygkj/wqkjgg/

代码

class MongoPipeline:def open_spider(self, spider):self.client = pymongo.MongoClient()self.ssq = self.client.bjsxt.ssqdef process_item(self, item, spider):if item.get('code') =='2022086':self.ssq.insert_one(item)return itemdef close_spider(self, spider):self.client.close()# pip install pymysql==1.0.2
import pymysql
from scrapy.exceptions import DropItem
class MySQLPipeline:def open_spider(self, spider):# 创建数据库连接self.client =
pymysql.connect(host='192.168.31.151',port=3
306,user='root',password='123',db='bjsxt',ch
arset='utf8')# 获取游标self.cursor = self.client.cursor()def process_item(self, item, spider):if item.get('code') =='2022086':raise DropItem('2022086 数据已经在
mongo保存过了')# 写入数据库SQLsql = 'insert into t_ssq(id,code,red,blue) values (0,%s,%s,%s)'# 写的数据参数args =(item['code'],item['red'],item['blue'])# 执行SQLself.cursor.execute(sql,args)# 提交事务self.client.commit()return itemdef close_spider(self, spider):self.cursor.close()self.client.close()

Scrapy案例 

需求: 爬取二手房数据,要求包含房屋基本信息与详情 

网址: https://bj.lianjia.com/ershoufang/

 爬虫的分布式思维与实现思路

 

        scrapy-redis实现分布式,其实从原理上来说很简单,这里为描述方便,我们把自己的核心服务器称为master,而把用于跑爬虫程序的机器称为slave 

        我们知道,采用scrapy框架抓取网页,我们需要首先给定它一些start_urls,爬虫首先访问start_urls里面的url,再根据我们的具体逻辑,对里面的元素、或者是其他的二级、三级页面进行抓取。而要实现分布式,我们只需要在这个starts_urls里面做文章就行了

        我们在master上搭建一个redis数据库(注意这个数据库只用作url的存储),并对每一个需要爬取的网站类型,都开辟一个单独的列表字段。通过设置slave上scrapy-redis获取url的地址为master地址。这样的结果就是,尽管有多个slave,然而大家获取url的地方只有一个,那就是服务器master上的redis数据库

        并且,由于scrapy-redis自身的队列机制,slave获取的链接不会相互冲突。这样各个slave在完成抓取任务之后,再把获取的结果汇总到服务器上

好处

        程序移植性强,只要处理好路径问题,把slave上的程序移植到另一台机器上运行,基本上就是复制粘贴的事情

分布式爬虫的实现

  • 使用三台机器,一台是windows,两台是centos,分别在两台机器上部署scrapy来进行分布式抓取一个网站
  •  windows的ip地址为 192.168.xxx.XXX ,用来作为redis的master端,centos的机器作为slave
  • master的爬虫运行时会把提取到的url封装成request放到redis中的数据库:“dmoz:requests”,并且从该数据库中提取request后下载网页,再把网页的内容存放到redis的另一个数据库“dmoz:items”
  • slave从master的redis中取出待抓取的request,下载完网页之后就把网页的内容发送回master的redis
  • 重复上面的3和4,直到master的redis中的“dmoz:requests”数据库为空,再把master的redis中的“dmoz:items”数据库写入到mongodb中
  • master里的reids还有一个数据“dmoz:dupefilter”是用来存储抓取过的url的指纹(使用哈希函数将url运算后的结果),是防止重复抓取的

scrapy-redis框架的安装 

        一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能

github地址:

https://github.com/rmax/scrapy-redis

 

安装 

 pip install scrapy-redis==0.7.3

爬虫分布式-搭建Main端Redis

安装Redis

        Redis是有名的NoSql数据库,一般Linux都会默认支持。但在Windows环境中,目前也有支持版本。下载地址也可以GitHub中获取(https://github.com/microsoftarchive/redis/releases)

  • 下载安装包 
  • 下载压缩版,解压即可
  • 修改配置文件 redis.windows.conf ,配置redis参数
    # bind 127.0.0.1 =::1 允许远程访问
    protected-mode no 关闭私有模式
    

     

开启redis服务 

redis-server redis.windows.conf

爬虫分布式-搭建Slave端环境配置

Python环境

python安装与使用的前置环境 

yum install gcc* zlib* libffi-devel bzip2-
devel xz-devel openssl* -y

下载 Python3

yum install wget -y
wget
https://www.python.org/ftp/python/3.9.4/Python-3.9.4.tgz

注意
可在python官网https://www.python.org/downloads/查找最新版本python复制链接,以下文件夹名称均需要替换为对应版本名称

技巧
理论是服务器安装的Python版本与运行环境版本一致。但是也要看服务器是否支持!!

安装 

tar -xf Python-3.9.4.tgz # 解压
cd Python-3.9.4
./configure prefix=/usr/local/python3 --
enable-optimizations #编译
make install # 安装
export PATH=$PATH:/usr/local/python3/bin/ #
配置环境变量
# ~/.bash_profile

安装scrapy
安装scrapy的环境 

提示
如果twisted安装不成功,可以考虑单独下载安装
https://twisted.org/

安装scrapy

 pip3 install scrapy

注意
为了避免安装失败,修改pypi数据源
找到下列文件


~/.pip/pip.conf


在上述文件中添加或修改:


[global]
index-url =http://mirrors.aliyun.com/pypi/simple/


[install]
trusted-host=mirrors.aliyun.com


安装 scrapy-redis 

pip3 install scrapy-redis

 安装 scrapy-fake-useragent

pip3 install scrapy-fake-useragent

这篇关于Day:007(4) | Python爬虫:高效数据抓取的编程技术(scrapy框架使用)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/902144

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件