scrapy 爬取诗词 记录code

2024-02-21 11:32
文章标签 记录 code scrapy 爬取 诗词

本文主要是介绍scrapy 爬取诗词 记录code,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

创建项目

scrapy startproject poems

创建爬虫应用

cd poems\poems\spidersscrapy genspider 名字 域名
scrapy genspider poem_spider www.gushiwen.org在poem_spider.py中 修改启始URL
start_urls = ['https://www.gushiwen.org/default_1.aspx']

在items中定义数据结构

class PoemsItem(scrapy.Item):title = scrapy.Field()  # 题目dynasty = scrapy.Field()  # 朝代author = scrapy.Field()  # 作者content = scrapy.Field()  # 内容tags = scrapy.Field()  # 标签 tags

settings中设置

USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3648.400 QQBrowser/10.4.3319.400"

设置一个启动文件main.py

from scrapy.cmdline import executeimport sys
import ossys.path.append(os.path.dirname(os.path.abspath(__file__)))execute(["scrapy","crawl","poem_spider"])

编写爬虫

shell调试
scrapy shell https://www.gushiwen.org/default_1.aspx
# -*- coding: utf-8 -*-
import scrapy
from poems.items import PoemsItemclass PoemSpiderSpider(scrapy.Spider):name = 'poem_spider' # 爬虫名allowed_domains = ['www.gushiwen.org'] # 允许的域名start_urls = ['https://www.gushiwen.org/default_1.aspx'] # 入口urldef parse(self, response):docs = response.css(".left .sons")for doc in docs:poem_tiem = PoemsItem()poem_tiem['title'] = doc.css("b::text").extract()[0]poem_tiem['dynasty'],poem_tiem['author'] = doc.css(".source  a::text").extract()poem_tiem['content'] = "".join(doc.css(".contson::text").extract()).strip()poem_tiem['tags'] = ",".join(doc.css(".tag a::text").extract())yield poem_tiemnext_link = response.css(".pagesright .amore::attr(href)")if next_link:next_link = next_link[0].extract()yield scrapy.Request("https://www.gushiwen.org" + next_link)
保存到json文件里
scrapy crawl poem_spider -o test.json保存到scv里
scrapy crawl poem_spider -o test.csv

这篇关于scrapy 爬取诗词 记录code的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/731633

相关文章

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

《SpringBoot配置文件之类型、加载顺序与最佳实践记录》SpringBoot的配置文件是灵活且强大的工具,通过合理的配置管理,可以让应用开发和部署更加高效,无论是简单的属性配置,还是复杂... 目录Spring Boot 配置文件详解一、Spring Boot 配置文件类型1.1 applicatio

MySQL INSERT语句实现当记录不存在时插入的几种方法

《MySQLINSERT语句实现当记录不存在时插入的几种方法》MySQL的INSERT语句是用于向数据库表中插入新记录的关键命令,下面:本文主要介绍MySQLINSERT语句实现当记录不存在时... 目录使用 INSERT IGNORE使用 ON DUPLICATE KEY UPDATE使用 REPLACE

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Spring Boot中定时任务Cron表达式的终极指南最佳实践记录

《SpringBoot中定时任务Cron表达式的终极指南最佳实践记录》本文详细介绍了SpringBoot中定时任务的实现方法,特别是Cron表达式的使用技巧和高级用法,从基础语法到复杂场景,从快速启... 目录一、Cron表达式基础1.1 Cron表达式结构1.2 核心语法规则二、Spring Boot中定

国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)

《国内环境搭建私有知识问答库踩坑记录(ollama+deepseek+ragflow)》本文给大家利用deepseek模型搭建私有知识问答库的详细步骤和遇到的问题及解决办法,感兴趣的朋友一起看看吧... 目录1. 第1步大家在安装完ollama后,需要到系统环境变量中添加两个变量2. 第3步 “在cmd中

Spring Retry 实现乐观锁重试实践记录

《SpringRetry实现乐观锁重试实践记录》本文介绍了在秒杀商品SKU表中使用乐观锁和MybatisPlus配置乐观锁的方法,并分析了测试环境和生产环境的隔离级别对乐观锁的影响,通过简单验证,... 目录一、场景分析 二、简单验证 2.1、可重复读 2.2、读已提交 三、最佳实践 3.1、配置重试模板

在 Spring Boot 中使用异步线程时的 HttpServletRequest 复用问题记录

《在SpringBoot中使用异步线程时的HttpServletRequest复用问题记录》文章讨论了在SpringBoot中使用异步线程时,由于HttpServletRequest复用导致... 目录一、问题描述:异步线程操作导致请求复用时 Cookie 解析失败1. 场景背景2. 问题根源二、问题详细分

关于Spring @Bean 相同加载顺序不同结果不同的问题记录

《关于Spring@Bean相同加载顺序不同结果不同的问题记录》本文主要探讨了在Spring5.1.3.RELEASE版本下,当有两个全注解类定义相同类型的Bean时,由于加载顺序不同,最终生成的... 目录问题说明测试输出1测试输出2@Bean注解的BeanDefiChina编程nition加入时机总结问题说明

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据