爬虫 scrapy 抓取小说实例

2024-05-30 00:18

文章标签 抓取实例 scrapy 爬虫小说

本文主要是介绍爬虫 scrapy 抓取小说实例，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

以http://www.biquge.com/2_2970/ 这部小说为例，用scrapy对这部小说的章节进行抓取

#coding=utf-8
import scrapy,os
curpath = os.getcwd()
noveldir = ''
class novelSpider(scrapy.Spider):name = 'xiaoshuo'start_urls = ['http://www.biquge.com/2_2970/']	def __init__(self):self.noveldir = ''def parse(self,response):title = response.css('div#info h1::text').extract_first()    #小说名self.noveldir = os.path.join(curpath,title)self.log(self.noveldir )if not os.path.exists(self.noveldir ):os.makedirs(self.noveldir )                          #创建小说目录self.log('开始下载%s' % title.encode('utf8'))  for href in  response.css('dd a').css('a::attr(href)'):      #小说章节链接yield response.follow(href,self.parse_page)          def parse_page(self,response):filename = response.css('div.bookname h1::text').extract_first().strip() #章节名，同时作为文件名self.log('开始下载 %s' % filename.encode('utf8'))with open(os.path.join(self.noveldir ,filename),'w+') as f:for item in response.css('div#content::text').extract():         #小说章节内容写到文件f.write(item.encode("utf8")+"\n")

保存后执行scrapy crawl xiaoshuo就可以看到在目录下的全部小说章节了

这篇关于爬虫 scrapy 抓取小说实例的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1015044。 23002807@qq.com

相关文章

SpringBoot+RustFS 实现文件切片极速上传的实例代码

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot？二、环境准备与部署2.1 安装 RustF

阅读更多...

MySQL的配置文件详解及实例代码

MySQL的配置文件详解及实例代码

《MySQL的配置文件详解及实例代码》MySQL的配置文件是服务器运行的重要组成部分,用于设置服务器操作的各种参数,下面：本文主要介绍MySQL配置文件的相关资料,文中通过代码介绍的非常详细,需要... 目录前言一、配置文件结构1.[mysqld]2.[client]3.[mysql]4.[mysqldum

阅读更多...

Java Stream流以及常用方法操作实例

Java Stream流以及常用方法操作实例

《JavaStream流以及常用方法操作实例》Stream是对Java中集合的一种增强方式,使用它可以将集合的处理过程变得更加简洁、高效和易读,：本文主要介绍JavaStream流以及常用方法... 目录一、Stream流是什么？二、stream的操作2.1、stream流创建2.2、stream的使用2.

阅读更多...

springboot项目中集成shiro+jwt完整实例代码

springboot项目中集成shiro+jwt完整实例代码

《springboot项目中集成shiro+jwt完整实例代码》本文详细介绍如何在项目中集成Shiro和JWT,实现用户登录校验、token携带及接口权限管理,涉及自定义Realm、ModularRe... 目录简介目的需要的jar集成过程1.配置shiro2.创建自定义Realm2.1 LoginReal

阅读更多...

Python跨文件实例化、跨文件调用及导入库示例代码

Python跨文件实例化、跨文件调用及导入库示例代码

《Python跨文件实例化、跨文件调用及导入库示例代码》在Python开发过程中,经常会遇到需要在一个工程中调用另一个工程的Python文件的情况,：本文主要介绍Python跨文件实例化、跨文件调... 目录1. 核心对比表格（完整汇总）1.1 自定义模块跨文件调用汇总表1.2 第三方库使用汇总表1.3 导

阅读更多...

MySQL多实例管理如何在一台主机上运行多个mysql

MySQL多实例管理如何在一台主机上运行多个mysql

《MySQL多实例管理如何在一台主机上运行多个mysql》文章详解了在Linux主机上通过二进制方式安装MySQL多实例的步骤,涵盖端口配置、数据目录准备、初始化与启动流程,以及排错方法,适用于构建读... 目录一、什么是mysql多实例二、二进制方式安装MySQL1.获取二进制代码包2.安装基础依赖3.清

阅读更多...

SpringBoot 异常处理/自定义格式校验的问题实例详解

SpringBoot 异常处理/自定义格式校验的问题实例详解

《SpringBoot异常处理/自定义格式校验的问题实例详解》文章探讨SpringBoot中自定义注解校验问题,区分参数级与类级约束触发的异常类型,建议通过@RestControllerAdvice... 目录1. 问题简要描述2. 异常触发1) 参数级别约束2) 类级别约束3. 异常处理1) 字段级别约束

阅读更多...

Apache Ignite缓存基本操作实例详解

Apache Ignite缓存基本操作实例详解

《ApacheIgnite缓存基本操作实例详解》文章介绍了ApacheIgnite中IgniteCache的基本操作,涵盖缓存获取、动态创建、销毁、原子及条件更新、异步执行,强调线程池注意事项,避免... 目录一、获取缓存实例（Getting an Instance of a Cache）示例代码：二、动态

阅读更多...

JSONArray在Java中的应用操作实例

JSONArray在Java中的应用操作实例

《JSONArray在Java中的应用操作实例》JSONArray是org.json库用于处理JSON数组的类,可将Java对象（Map/List）转换为JSON格式,提供增删改查等操作,适用于前后端... 目录1. jsONArray定义与功能1.1 JSONArray概念阐释1.1.1 什么是JSONA

阅读更多...

MySQL中的LENGTH()函数用法详解与实例分析

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集（如UTF-8）的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1：计算字符串

阅读更多...