Python爬虫实战:爬取人民日报数据写入Mysql

本文主要是介绍Python爬虫实战:爬取人民日报数据写入Mysql,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、写这个爬虫的目的:
学了一段时间的Python、SQL语句,主要想通过这个爬虫熟悉静态网页站点的爬取,以及将爬取数据在数据库中进行操作的过程。
二、目标网站分析:
人民日报网站是静态网站,其页面跳转是通过 URL 的改变完成的,即所有数据一开始就是加载好的。我们只需要去 html 中提取相应的数据即可,不涉及到诸如 Ajax 这样的动态加载方法。
三、用到的主要第三方库:
通过上述分析,主要用了requests、lxml、pymysql、datetime这几个第三方库。其中,requests 库主要用来发起请求及接受响应信息,lxml主要通过Xpath方法来解析html内容,pymysql主要用于将爬取的数据写入Mysql数据库。
四、代码:

import requests
from lxml import etree
import pymysql
from datetime import datetime,timedelta
import timedef download_people_daily(year, month, day):#获取目标网页的 html 内容:def get_html_text(url):headers={'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',}html=requests.get(url,headers=headers)html.raise_for_status()html.encoding="utf-8"return etree.HTML(html.text)url='http://paper.people.com.cn/rmrb/html/'  + year + '-' + month + '/' + day + '/' +'nbs.D110000renmrb_01.htm'#爬取当天报纸的各版面的链接,将其保存为一个数组,并返回:def get_page_link(year,month,day):    selector1=get_html_text(url)temp_pagelink=selector1.xpath('//*[@id="pageLink"]/@href')    #获取版面相对路径pagelink=[]for i1 in range(len(temp_pagelink)):pagelink.append('http://paper.people.com.cn/rmrb/html/'  + year + '-' + month + '/' + day + '/' +temp_pagelink[i1] )    #获取版面绝对路径,并将其添加到一个列表中return pagelink#爬取当天报纸某一版面的所有文章的链接,将其保存为一个数组,并返回:pageurl=get_page_link(year,month,day)articlelink=[]for i2 in pageurl:selector2=get_html_text(i2)temp_articlelink=selector2.xpath('//*[@id="titleList"]/ul/li[*]/a/@href')    #获取文章网址相对路径for i3 in range(len(temp_articlelink)):    articlelink.append('http://paper.people.com.cn/rmrb/html/'  + year + '-' + month + '/' + day + '/' +temp_articlelink[i3])       #获取文章网址绝对路径,并将其添加到一个列表中#爬取当天报纸所有文章的标题、时间版面、正文:title=[]dateinfo=[]content=[]for i4 in articlelink:selector3=get_html_text(i4)single_title=selector3.xpath('/html/body/div[1]/div/div[2]/div[4]/div/h1/text()')      #获取文章标题for i5 in range(len(single_title)):title.append(single_title[i5])single_dateinfo=selector3.xpath('/html/body/div[1]/div/div[2]/div[4]/div/div[1]/text()')     #获取版面时间for i6 in range(len(single_dateinfo)):dateinfo.append(single_dateinfo[i6])single_content=selector3.xpath('//*[@id="ozoom"]/p/text()')      #获取文章正文for i7 in range(len(single_content)):content.append(single_content[i7])# 将获取的信息写入MySQL数据库(不含文章正文):for i in range(len(dateinfo)):db = pymysql.connect(host='localhost', user='root', password='123456', port=3306, db='spiders')cursor = db.cursor()sql = 'INSERT INTO people_daily(dateinfo,articlelink,title) values(%s, %s, %s)'try:cursor.execute(sql, (dateinfo[i],articlelink[i],title[i]))db.commit()except:db.rollback()db.close()def gen_dates(b_date, days):day = timedelta(days = 1)for i in range(days):yield b_date + day * idef get_date_list(beginDate, endDate):start = datetime.strptime(beginDate, "%Y%m%d")      #开始日期end = datetime.strptime(endDate, "%Y%m%d")      #结束日期data = []for d in gen_dates(start, (end-start).days):data.append(d)   return data     #获得开始日期和结束日期之间的日期列表if __name__ == '__main__':'''主函数:程序入口'''# 输入起止日期,爬取之间的新闻beginDate = input('请输入开始日期(格式如 20190808 ):')endDate = input('请输入结束日期(格式如 20190808 ):')data = get_date_list(beginDate, endDate)for d in data:year = str(d.year)month = str(d.month) if d.month >=10 else '0' + str(d.month)day = str(d.day) if d.day >=10 else '0' + str(d.day)download_people_daily(year, month, day)print("爬取完成:" + year + month + day)# time.sleep(1)        # 怕被封 IP 爬一爬缓一缓,爬的少的话可以注释掉

五、爬取效果:
1、编译器中的结果:在编译器提示下输入想要爬取数据的开始日期、结束日期后等待爬取结果。每完成一天的爬取,程序会在窗口中自动显示“爬取完成:********(当天日期)”。在这里插入图片描述
2、Navicat中Mysql的数据写入结果:在上述窗口显示所有日期的爬取均已完成后,在数据库中刷新表单后可以看到数据的写入结果。
在这里插入图片描述

这篇关于Python爬虫实战:爬取人民日报数据写入Mysql的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/677932

相关文章

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

浅谈mysql的not exists走不走索引

《浅谈mysql的notexists走不走索引》在MySQL中,​NOTEXISTS子句是否使用索引取决于子查询中关联字段是否建立了合适的索引,下面就来介绍一下mysql的notexists走不走索... 在mysql中,​NOT EXISTS子句是否使用索引取决于子查询中关联字段是否建立了合适的索引。以下

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

Python包管理工具pip的升级指南

《Python包管理工具pip的升级指南》本文全面探讨Python包管理工具pip的升级策略,从基础升级方法到高级技巧,涵盖不同操作系统环境下的最佳实践,我们将深入分析pip的工作原理,介绍多种升级方... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

PowerShell中15个提升运维效率关键命令实战指南

《PowerShell中15个提升运维效率关键命令实战指南》作为网络安全专业人员的必备技能,PowerShell在系统管理、日志分析、威胁检测和自动化响应方面展现出强大能力,下面我们就来看看15个提升... 目录一、PowerShell在网络安全中的战略价值二、网络安全关键场景命令实战1. 系统安全基线核查

Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式

《Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式》本文详细介绍如何使用Java通过JDBC连接MySQL数据库,包括下载驱动、配置Eclipse环境、检测数据库连接等关键步骤,... 目录一、下载驱动包二、放jar包三、检测数据库连接JavaJava 如何使用 JDBC 连接 mys

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Qt使用QSqlDatabase连接MySQL实现增删改查功能

《Qt使用QSqlDatabase连接MySQL实现增删改查功能》这篇文章主要为大家详细介绍了Qt如何使用QSqlDatabase连接MySQL实现增删改查功能,文中的示例代码讲解详细,感兴趣的小伙伴... 目录一、创建数据表二、连接mysql数据库三、封装成一个完整的轻量级 ORM 风格类3.1 表结构

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Python中反转字符串的常见方法小结

《Python中反转字符串的常见方法小结》在Python中,字符串对象没有内置的反转方法,然而,在实际开发中,我们经常会遇到需要反转字符串的场景,比如处理回文字符串、文本加密等,因此,掌握如何在Pyt... 目录python中反转字符串的方法技术背景实现步骤1. 使用切片2. 使用 reversed() 函