五十四、使用Scrapy爬取北京公交信息(将爬取的数据存入Mysql)

本文主要是介绍五十四、使用Scrapy爬取北京公交信息(将爬取的数据存入Mysql),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

环境准备:

python3.7

Pycharm

Scrapy框架

        注:全部源代码会在文章最后给出

理论概述:

什么是Scrapy框架?

        Scrapy是一个快速、高层次、轻量级的屏幕抓取和web抓取的python爬虫框架

Scrapy的用途?

        Scrapy用途非常广泛,主要用于抓取特定web站点的信息并从中提取特定结构的数据,除此之外,还可用于数据挖掘、监测、自动化测试、信息处理和历史片段(历史记录)打包等

目标网址:

环境搭建:

一、安装Scrapy

安装Scrapy的方式有两种:

A、使用Anaconda进行安装

B、使用pip安装

        注:使用Anaconda安装Scrapy需要已经安装好Anaconda才能继续安装Scrapy,使用pip安装需要先下载Twisted插件,直接安装scrapy是会报错的,笔者推荐使用Anaconda进行安装

        1、使用Anaconda安装:

conda install scrapy

         2、使用pip安装:

                A:安装Twisted:

windows 64位及python3.7版本https://download.csdn.net/download/m0_54925305/59579598?spm=1001.2014.3001.5503https://download.csdn.net/download/m0_54925305/59579598?spm=1001.2014.3001.5503其余版本下载链接https://www.lfd.uci.edu/~gohlke/pythonlibs/#twistedhttps://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

进入终端:

pip install Twisted文件名   再 pip install scrapy


安装成功后的效果,终端输入scrapy:

二、创建 beijingbus 的scrapy项目

        1、进入pycharm的终端创建scrapy项目

         2、进入创建的beijingbus目录

        3、创建一个spider

三、搭建scrapy项目

项目主体架构:

功能描述:

beijingbus/spiders/:放置spider代码的目录,用于编写用户自定义的爬虫

beijingbus/items.py:项目中的item文件,用于定义用户要抓取的字段

beijingbus/middlewares.py:主要是对功能的拓展,用于用户添加一些自定义的功能

beijingbus/pipelines.py:管道文件,当spider抓取到内容(item)以后,会被送到这里,这些信息在这里会被清洗,去重,保存到数据库等

beijingbus/settings.py:项目的设置文件,配置的默认功能在这里存放

        1、进入settings.py将ROBOTSTXT_OBEY的参数改为False,目的是使其不遵守Robots协议

        2、将DEFAULT_REQUEST_HEADERS方法注释掉,并在其中添加User-Agent属性,代码如下

 

        注:此操作的功能是使爬虫实现模拟浏览器访问的效果 

        3、进入bei_bus.py文件,对start_urls进行修改,代码如下图

        4、新建一个start_requests()方法(此方法名固定),获得并构建一级网页URL,代码如下

    def start_requests(self):#这里的循环可以根据实际情况自行修改,这里不想全部爬取,只要list1下的就可以,故循环执行一次#start_requests()方法使用 format 拼接 URL,并用 yield 再次发起网页访问, callback 后的方法为回调函数,可以在回调函数中对网页进行处理。for page in range(1):url = '{url}/list{page}'.format(url=self.start_urls, page=(page + 1))yield FormRequest(url, callback=self.parse_index)

        5、在pycharm中的命令行界面执行 "scrapy crawl bei_bus" 爬取一级网页,效果如下

进入beijingbus/目录下执行 "scrapy crawl bei_bus"命令


        注:scrapy框架爬虫开始执行 

一级网页效果:

         6、 爬取二级网页

    def parse_index(self, reponse):beijing = reponse.xpath('//div[@class="list clearfix"]/a//@href').extract()for c in beijing:url3 = urljoin(self.start_urls, c)yield Request(url3, callback=self.parse_detail)

        进入命令行界面执行 "scrapy crawl bei_bus" 爬取二级网页,效果如图

        注:在parse_index()方法中,使用Xpath寻找详细信息页面的URL,并对网址进行拼接,之后对二级网页发起请求,并返回回调函数parse_detail()

        7、爬取页面详细信息

  def parse_detail(self, response):#这里只爬取这些字段,可以自行添加a = response.xpath('//h1[@class="title"]/text()').extract_first()b = response.xpath('//a[@class="category"]/text()').extract_first()c = response.xpath('//ul[@class="bus-desc"]/li[1]/text()').extract_first()item = BeijingbusItem()for field in item.fields:item[field] = eval(field)yield item

        8、详细信息页面效果

        注:这将会爬取到list1标签内所有路信息,其中包括公交路线,市区普线,运行时间这些字段,其余字段可以自行添加。

        9、将爬取的内容存入Mysql

A、在 MySQL 的 studb 数据库中创建一个 businfo 表:

create table businfo(a varchar(1000),b varchar(1000),c varchar(1000));

B、在 settings.py 文件末尾添加如下参数:

DB_HOST = 'localhost'
DB_USER = 'root'
DB_PWD = 'dang'
DB_CHARSET='UTF8'
DB = 'studb'

C、在 pipelines.py 文件中,修改 class 名称为 MySQL Pipeline,添加初始化方法,将 host、user、password、db、charset 从 settings 中读取出来,并通过添加一个connect()方法建立与数据库的连接,代码如下。

import pymysql
from itemadapter import ItemAdapter
from beijingbus import settingsclass MysqlPipeline(object):def __init__(self):self.host = settings.DB_HOSTself.user = settings.DB_USERself.pwd = settings.DB_PWDself.db = settings.DBself.charset = settings.DB_CHARSETself.connect()def connect(self):self.conn = pymysql.connect(host=self.host, user=self.user, password=self.pwd, db=self.db, charset=self.charset)self.cursor = self.conn.cursor()def process_item(self, item, spider):sql = 'INSERT INTO businfo (a,b,c)VALUES("%s","%s","%s")' % (item['a'], item['b'], item['c'])self.cursor.execute(sql)self.conn.commit()return itemdef close_spider(self, spider):self.conn.close()self.cursor.close()

        注:close_spider()方法,用于关闭 MySQL 数据库连接,process_item()方法,用于完成向数据库中插入数据的操作

D、在 settings.py 中将 ITEM_PIPELINES 方法的注释去掉,并将其中的内容 改为“'beibus.pipelines.MysqlPipeline':300”,后面的数字代表优先级,数字越小, 优先级越高,代码如下:

ITEM_PIPELINES = {'beijingbus.pipelines.MysqlPipeline': 300
}

        10、在 PyCharm 软件左下角单击“Terminal”标签,进入命令行界面,在其中执行 “scrapy crawl bei_bus”命令,启动爬虫项目,查看数据库

程序完整源代码

bei_bus.py:

import scrapy
from scrapy import Spider, Request, FormRequest
from urllib.parse import urljoin
from ..items import BeijingbusItemclass BeiBusSpider(scrapy.Spider):name = 'bei_bus'allowed_domains = ['beijing.8684.cn']start_urls = 'http://beijing.8684.cn/'def start_requests(self):for page in range(1):url = '{url}/list{page}'.format(url=self.start_urls, page=(page + 1))yield FormRequest(url, callback=self.parse_index)def parse_index(self, reponse):beijing = reponse.xpath('//div[@class="list clearfix"]/a//@href').extract()for c in beijing:urls = urljoin(self.start_urls, c)yield Request(urls, callback=self.parse_detail)def parse_detail(self, response):a = response.xpath('//h1[@class="title"]/text()').extract_first()b = response.xpath('//a[@class="category"]/text()').extract_first()c = response.xpath('//ul[@class="bus-desc"]/li[1]/text()').extract_first()# 格式化数据ab = BeijingbusItem()for field in ab.fields:ab[field] = eval(field)yield abdef parse(self, response):pass

        注:当添加其他字段的爬取时也要进行格式化数据,即在items.py中进行格式化,如下

items.py:

import scrapy#格式化数据
class BeijingbusItem(scrapy.Item):a = scrapy.Field()b = scrapy.Field()c = scrapy.Field()

pipelines.py:

import pymysql
from itemadapter import ItemAdapter
from beijingbus import settingsclass MysqlPipeline(object):def __init__(self):self.host = settings.DB_HOSTself.user = settings.DB_USERself.pwd = settings.DB_PWDself.db = settings.DBself.charset = settings.DB_CHARSETself.connect()def connect(self):self.conn = pymysql.connect(host=self.host, user=self.user, password=self.pwd, db=self.db, charset=self.charset)self.cursor = self.conn.cursor()def process_item(self, item, spider):sql = 'INSERT INTO businfo (a,b,c)VALUES("%s","%s","%s")' % (item['a'], item['b'], item['c'])self.cursor.execute(sql)self.conn.commit()return itemdef close_spider(self, spider):self.conn.close()self.cursor.close()

settings.py:


BOT_NAME = 'beijingbus'SPIDER_MODULES = ['beijingbus.spiders']
NEWSPIDER_MODULE = 'beijingbus.spiders'ROBOTSTXT_OBEY = FalseDEFAULT_REQUEST_HEADERS = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
}ITEM_PIPELINES = {'beijingbus.pipelines.MysqlPipeline': 300
}DB_HOST = 'localhost'
DB_USER = 'root'
DB_PWD = 'dang'
DB_CHARSET = 'UTF8'
DB = 'studb'

程序框架主体逻辑:

        1、修改settings.py将ROBOTSTXT_OBEY的参数改为False

        2、修改settings.py添加User-Agent属性

        3、编写bei_bus.py

        4、编写items.py以格式化数据

        5、新建数据库表

        6、编写MysqlPipeline.py

        7、运行bei_bus爬虫项目

使用Scrapy爬取北京公交信息完成


这篇关于五十四、使用Scrapy爬取北京公交信息(将爬取的数据存入Mysql)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/188389

相关文章

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

Jsoncpp的安装与使用方式

《Jsoncpp的安装与使用方式》JsonCpp是一个用于解析和生成JSON数据的C++库,它支持解析JSON文件或字符串到C++对象,以及将C++对象序列化回JSON格式,安装JsonCpp可以通过... 目录安装jsoncppJsoncpp的使用Value类构造函数检测保存的数据类型提取数据对json数

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

springboot整合 xxl-job及使用步骤

《springboot整合xxl-job及使用步骤》XXL-JOB是一个分布式任务调度平台,用于解决分布式系统中的任务调度和管理问题,文章详细介绍了XXL-JOB的架构,包括调度中心、执行器和Web... 目录一、xxl-job是什么二、使用步骤1. 下载并运行管理端代码2. 访问管理页面,确认是否启动成功

Mysql 中的多表连接和连接类型详解

《Mysql中的多表连接和连接类型详解》这篇文章详细介绍了MySQL中的多表连接及其各种类型,包括内连接、左连接、右连接、全外连接、自连接和交叉连接,通过这些连接方式,可以将分散在不同表中的相关数据... 目录什么是多表连接?1. 内连接(INNER JOIN)2. 左连接(LEFT JOIN 或 LEFT

使用Nginx来共享文件的详细教程

《使用Nginx来共享文件的详细教程》有时我们想共享电脑上的某些文件,一个比较方便的做法是,开一个HTTP服务,指向文件所在的目录,这次我们用nginx来实现这个需求,本文将通过代码示例一步步教你使用... 在本教程中,我们将向您展示如何使用开源 Web 服务器 Nginx 设置文件共享服务器步骤 0 —