python3 [入门基础实战] 爬虫之四季花果园的采果模块

2024-01-14 19:58

本文主要是介绍python3 [入门基础实战] 爬虫之四季花果园的采果模块,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这是本人第一次进行根据自己的项目进行爬取,因为处于爬虫初步阶段,现在只是爬取的是一个主标题,和一个副标题,并存入txt文件中,存的数据有些重复的。暂且先这样,来勉励自己吧。

#encoding=utf8
import requests
import re
from bs4 import BeautifulSoup
import osdef getSijiHuaGuo(huaguo_url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2372.400 QQBrowser/9.5.10548.400'}page = 0r = requests.get(huaguo_url, headers)html = r.textsoup = BeautifulSoup(html, 'lxml')img_list = []img_list = soup.find(class_='picTextPagerList')# print(img_list)titles = soup.findAll('div', {'class': 'brief'})for each in titles:temptitle = each.get_text() + '\t\n'# print(temptitle)titleslist.append(temptitle)main_titles = soup.findAll('div', {'class': 'title'})print('*' * 40)for title in main_titles:tempStr = title.get_text() + "\t\n"# print(tempStr)titleslist.append(tempStr)titleslist = []
for page in range(0,21):huaguo_url = "http://www.sjhgw.cn/list.aspx?ci=22&pageIndex=%s" % pageprint('==============================正在获取:'+str(page)+'页数据==============================')print('url ===  '+huaguo_url)getSijiHuaGuo(huaguo_url)with open('C:\\QiuShiBaiKe.txt', 'a',encoding='utf-8') as f:f.write("".join(titleslist))# print(titleslist)

在爬虫过程中还是遇到一些坑,这里做一下总结:

由于re模块的不熟悉, 以后爬虫尽量用BeautifulSoup模块,这个挺适合新手的,

网络爬虫库用requests ,以前学习其他人的,一会urlib,urlib2 ,URllib3什么的, 整的自己老是记不住东西,

list 转string可以 一个string类型的.join(list) ,这样才可以变成字符串写入到文件中。

os 模块文件的写入可追加的是a,w 为可写入。这个以后要熟悉,也要记住

页面数值的变化从哪个范围到哪个范围可以用:

for page in range(0,21):

暂且就这么多,明天继续学习新东西!

这篇关于python3 [入门基础实战] 爬虫之四季花果园的采果模块的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/606340

相关文章

SpringBoot整合 Quartz实现定时推送实战指南

《SpringBoot整合Quartz实现定时推送实战指南》文章介绍了SpringBoot中使用Quartz动态定时任务和任务持久化实现多条不确定结束时间并提前N分钟推送的方案,本文结合实例代码给大... 目录前言一、Quartz 是什么?1、核心定位:解决什么问题?2、Quartz 核心组件二、使用步骤1

SpringBoot整合AOP及使用案例实战

《SpringBoot整合AOP及使用案例实战》本文详细介绍了SpringAOP中的切入点表达式,重点讲解了execution表达式的语法和用法,通过案例实战,展示了AOP的基本使用、结合自定义注解以... 目录一、 引入依赖二、切入点表达式详解三、案例实战1. AOP基本使用2. AOP结合自定义注解3.

Java利用Spire.Doc for Java实现在模板的基础上创建Word文档

《Java利用Spire.DocforJava实现在模板的基础上创建Word文档》在日常开发中,我们经常需要根据特定数据动态生成Word文档,本文将深入探讨如何利用强大的Java库Spire.Do... 目录1. Spire.Doc for Java 库介绍与安装特点与优势Maven 依赖配置2. 通过替换

Java 队列Queue从原理到实战指南

《Java队列Queue从原理到实战指南》本文介绍了Java中队列(Queue)的底层实现、常见方法及其区别,通过LinkedList和ArrayDeque的实现,以及循环队列的概念,展示了如何高效... 目录一、队列的认识队列的底层与集合框架常见的队列方法插入元素方法对比(add和offer)移除元素方法

Spring Boot基于 JWT 优化 Spring Security 无状态登录实战指南

《SpringBoot基于JWT优化SpringSecurity无状态登录实战指南》本文介绍如何使用JWT优化SpringSecurity实现无状态登录,提高接口安全性,并通过实际操作步骤... 目录Spring Boot 实战:基于 JWT 优化 Spring Security 无状态登录一、先搞懂:为什

C++11中的包装器实战案例

《C++11中的包装器实战案例》本文给大家介绍C++11中的包装器实战案例,本文结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录引言1.std::function1.1.什么是std::function1.2.核心用法1.2.1.包装普通函数1.2.

Nginx概念、架构、配置与虚拟主机实战操作指南

《Nginx概念、架构、配置与虚拟主机实战操作指南》Nginx是一个高性能的HTTP服务器、反向代理服务器、负载均衡器和IMAP/POP3/SMTP代理服务器,它支持高并发连接,资源占用低,功能全面且... 目录Nginx 深度解析:概念、架构、配置与虚拟主机实战一、Nginx 的概念二、Nginx 的特点

Spring IOC核心原理详解与运用实战教程

《SpringIOC核心原理详解与运用实战教程》本文详细解析了SpringIOC容器的核心原理,包括BeanFactory体系、依赖注入机制、循环依赖解决和三级缓存机制,同时,介绍了SpringBo... 目录1. Spring IOC核心原理深度解析1.1 BeanFactory体系与内部结构1.1.1

SpringCloud Stream 快速入门实例教程

《SpringCloudStream快速入门实例教程》本文介绍了SpringCloudStream(SCS)组件在分布式系统中的作用,以及如何集成到SpringBoot项目中,通过SCS,可... 目录1.SCS 组件的出现的背景和作用2.SCS 集成srping Boot项目3.Yml 配置4.Sprin

Redis 命令详解与实战案例

《Redis命令详解与实战案例》本文详细介绍了Redis的基础知识、核心数据结构与命令、高级功能与命令、最佳实践与性能优化,以及实战应用场景,通过实战案例,展示了如何使用Redis构建高性能应用系统... 目录Redis 命令详解与实战案例一、Redis 基础介绍二、Redis 核心数据结构与命令1. 字符