python3 [入门基础实战] 爬虫之四季花果园的采果模块

2024-01-14 19:58

本文主要是介绍python3 [入门基础实战] 爬虫之四季花果园的采果模块,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这是本人第一次进行根据自己的项目进行爬取,因为处于爬虫初步阶段,现在只是爬取的是一个主标题,和一个副标题,并存入txt文件中,存的数据有些重复的。暂且先这样,来勉励自己吧。

#encoding=utf8
import requests
import re
from bs4 import BeautifulSoup
import osdef getSijiHuaGuo(huaguo_url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2372.400 QQBrowser/9.5.10548.400'}page = 0r = requests.get(huaguo_url, headers)html = r.textsoup = BeautifulSoup(html, 'lxml')img_list = []img_list = soup.find(class_='picTextPagerList')# print(img_list)titles = soup.findAll('div', {'class': 'brief'})for each in titles:temptitle = each.get_text() + '\t\n'# print(temptitle)titleslist.append(temptitle)main_titles = soup.findAll('div', {'class': 'title'})print('*' * 40)for title in main_titles:tempStr = title.get_text() + "\t\n"# print(tempStr)titleslist.append(tempStr)titleslist = []
for page in range(0,21):huaguo_url = "http://www.sjhgw.cn/list.aspx?ci=22&pageIndex=%s" % pageprint('==============================正在获取:'+str(page)+'页数据==============================')print('url ===  '+huaguo_url)getSijiHuaGuo(huaguo_url)with open('C:\\QiuShiBaiKe.txt', 'a',encoding='utf-8') as f:f.write("".join(titleslist))# print(titleslist)

在爬虫过程中还是遇到一些坑,这里做一下总结:

由于re模块的不熟悉, 以后爬虫尽量用BeautifulSoup模块,这个挺适合新手的,

网络爬虫库用requests ,以前学习其他人的,一会urlib,urlib2 ,URllib3什么的, 整的自己老是记不住东西,

list 转string可以 一个string类型的.join(list) ,这样才可以变成字符串写入到文件中。

os 模块文件的写入可追加的是a,w 为可写入。这个以后要熟悉,也要记住

页面数值的变化从哪个范围到哪个范围可以用:

for page in range(0,21):

暂且就这么多,明天继续学习新东西!

这篇关于python3 [入门基础实战] 爬虫之四季花果园的采果模块的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/606340

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联