爬虫练习-爬取豆瓣网图书TOP250的数据

2023-11-20 20:50

本文主要是介绍爬虫练习-爬取豆瓣网图书TOP250的数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

爬取豆瓣网图书TOP250的数据,书名、链接、作者、出版社、出版时间、价格、评分、评语,并将数据存储于CSV文件中

本文为整理代码,梳理思路,验证代码有效性——2019.12.15


环境:
Python3(Anaconda3)
PyCharm
Chrome浏览器

主要模块:
lxml
requests
csv

1.

爬取的豆瓣图书首页如下
在这里插入图片描述

2.

分析URL规律

https://book.douban.com/top250?  # 首页
https://book.douban.com/top250? start=25  # 第二页
https://book.douban.com/top250? start=50  # 第三页
https://book.douban.com/top250? start=75  # 第四页
...

可以发现首页的URL与其他的URL格式不一样,但是通过测试发现可以通过URLhttps://book.douban.com/top250?start=0来访问首页
我们用列表解析式来构造出相应的URL列表

urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]

3.

爬取书名、链接、作者、出版社、出版时间、价格、评分、评语等数据
在这里插入图片描述
分析源码,进行解析
在这里插入图片描述
利用Xpath对其解析

# 所有信息均在tr class="item"中,先将该模块提取出来方便进一步解析
infos = selector.xpath('//tr[@class="item"]')for info in infos:name = info.xpath('td/div/a/@title')[0]  # 书名url = info.xpath('td/div/a/@href')[0]  # 链接book_infos = info.xpath('td/p/text()')[0]   author = book_infos.split('/')[0]  # 作者publisher = book_infos.split('/')[-3]  # 出版社date = book_infos.split('/')[-2]  # 出版时间price = book_infos.split('/')[-1]  # 价格rate = info.xpath('td/div/span[2]/text()')[0]  # 评分comments = info.xpath('td/p/span/text()')  # 评语comment = comments[0] if len(comments) != 0 else "空"

3.

将数据存储与CSV文件中
存储过程比较简单,“将大象装进冰箱”三步

  1. “打开冰箱”
# 创建csv
fp = open('doubanbook.csv', 'wt', newline='', encoding='utf-8')
  1. “将大象装进去”
# 写入数据
writer.writerow((name, url, author, publisher, date, price, rate,comment))
  1. “关上冰箱”
# 关闭csv文件
fp.close()

至此,爬取豆瓣网图书TOP250的数据就结束了


A.完整代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 导入相应的库文件
from lxml import etree
import requests
import csv# 创建csv
fp = open('doubanbook.csv', 'wt', newline='', encoding='utf-8')# 写入header
writer = csv.writer(fp)
writer.writerow(('name', 'url',  'author', 'publisher', 'date', 'price', 'rate', 'comment'))# 构造urls
urls = ['https://book.douban.com/top250? start={}'.format(str(i)) for i in range(0,250,25)]# 加入请求头
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36''(KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}for url in urls:html = requests.get(url, headers=headers)selector = etree.HTML(html.text)# 取大标签,以此循环infos = selector.xpath('//tr[@class="item"]')for info in infos:name = info.xpath('td/div/a/@title')[0]  # 书名url = info.xpath('td/div/a/@href')[0]  # 链接book_infos = info.xpath('td/p/text()')[0]   author = book_infos.split('/')[0]  # 作者publisher = book_infos.split('/')[-3]  # 出版社date = book_infos.split('/')[-2]  # 出版时间price = book_infos.split('/')[-1]  # 价格rate = info.xpath('td/div/span[2]/text()')[0]  # 评分comments = info.xpath('td/p/span/text()')  # 评语comment = comments[0] if len(comments) != 0 else "空"# 写入数据writer.writerow((name, url, author, publisher, date, price, rate,comment))# 关闭csv文件
fp.close()

这篇关于爬虫练习-爬取豆瓣网图书TOP250的数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/397347

相关文章

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient

SpringValidation数据校验之约束注解与分组校验方式

《SpringValidation数据校验之约束注解与分组校验方式》本文将深入探讨SpringValidation的核心功能,帮助开发者掌握约束注解的使用技巧和分组校验的高级应用,从而构建更加健壮和可... 目录引言一、Spring Validation基础架构1.1 jsR-380标准与Spring整合1

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

SpringBatch数据写入实现

《SpringBatch数据写入实现》SpringBatch通过ItemWriter接口及其丰富的实现,提供了强大的数据写入能力,本文主要介绍了SpringBatch数据写入实现,具有一定的参考价值,... 目录python引言一、ItemWriter核心概念二、数据库写入实现三、文件写入实现四、多目标写入

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

鸿蒙中Axios数据请求的封装和配置方法

《鸿蒙中Axios数据请求的封装和配置方法》:本文主要介绍鸿蒙中Axios数据请求的封装和配置方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.配置权限 应用级权限和系统级权限2.配置网络请求的代码3.下载在Entry中 下载AxIOS4.封装Htt