使用Xpath和Requests实现爬虫并存储在Excel表里

2023-10-21 05:38

本文主要是介绍使用Xpath和Requests实现爬虫并存储在Excel表里,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

爬的是杭州近期的的新房价

# encoding: utf-8
"""
@author: Ruvik
@software: PyCharm
@file: Spider_House.py
@time: 2020/7/9 20:12
"""# 爬一下链家网上杭州新房的价格
import requests                 # 进行网络请求
import xlwt                     # 与excel相关的操作
from lxml import etree          # 引入xpath库,方便定位元素
import time                     # 进行访问频率控制
import random                   # 随机数生成
import re                       # 正则表达式# 主程序
def main():base_url = "https://hz.fang.lianjia.com/loupan/pg"     # 最基本的网址,后续会根据这个进行翻页操作Savepath = ".\\杭州新房价.xls"                           # 存储路径datalist = getdata(base_url)savedata(datalist, Savepath)# 获取html源码
def ask_url(url):html=""headers={          # 进行伪装,防止416错误,模拟浏览器头部信息,向豆瓣服务器发送消息"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"}try:response = requests.get(url,headers=headers,timeout=10)  # 用户代理,表示告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上是告诉浏览器,我们可以接收什么水平的文件内容)time.sleep(random.randint(3, 6))                        # 每隔3-6s执行一次请求# print(response.status_code)html = response.content                                     # 获取网页的html源代码# print(html)print("请求访问成功")except requests.exceptions.RequestException as e:print("超时")print(e)return html# 从html源码中获取信息
def getdata(baseurl):Datalist = []                                 # 用来存储已经经过处理的信息for i in range(1, 100):                     # 在1-100页内爬取房价的信息url = baseurl+str(i)                    # 拼接url网址,进行换页# print(url)data = ask_url(url)                     # 获取到源代码# 从源代码中提取信息if data != "":html_data = etree.HTML(data)div_list = html_data.xpath('//div[@class="resblock-desc-wrapper"]')# print(len(div_list))for item in div_list:data_item = []# 提取详情链接link = "https://hz.fang.lianjia.com"link += item.xpath('./div/a/@href')[0]data_item.append(link)# print(link)# 提取名字name = item.xpath("./div/a/text()")[0]data_item.append(name)# print(name)# 提取地址loc = item.xpath('./div[@class="resblock-location"]/span/text()')location = loc[0] +"|"+ loc[1] +"|"+ item.xpath('./div[@class="resblock-location"]/a/text()')[0]data_item.append(location)# print(location)# 提取户型room = item.xpath('./a[@class="resblock-room"]/span/text()')rooms = ""for k in range(len(room)):if k < len(room) - 1:rooms += str(room[k]) + "|"else:rooms += str(room[k])# print(rooms)data_item.append(rooms)# 提取大小size = item.xpath('./div[@class="resblock-area"]/span/text()')if len(size) != 0:data_item.append(size[0])# print(size[0])else:data_item.append(" ")# 提取标签tag = item.xpath('./div[@class="resblock-tag"]/span/text()')tags = ""for k in range(len(tag)):if k < len(tag)-1:tags += str(tag[k]) + "|"else:tags += str(tag[k])# print(tags)data_item.append(tags)# 提取价格Price = ""price = item.xpath('./div[@class="resblock-price"]/div/span/text()')for k in range(len(price)):Price += price[k]Price = re.sub('\xa0', "", Price)     # 去掉“\xa0”字符# print(Price)data_item.append(Price)Datalist.append(data_item)print(len(Datalist))return Datalist# 将html获取的信息存入Excel表格中def savedata(Datalist,Savapath):col = ("链接", "名字", "地址", "户型", "大小", "标签", "价格")                # Excel的表头house_list = xlwt.Workbook(encoding="utf-8", style_compression=0)       # 创建workbook对象worksheet = house_list.add_sheet("HouseList", cell_overwrite_ok=True)   # 新建工作区,设为可覆盖for i in range(0, 7):                                                   # 写入表头worksheet.write(0, i, col[i])for i in range(0, 990):                                                 # 写入数据print("正在写入第%d条数据" % (i + 1))item = Datalist[i]for j in range(0, 7):worksheet.write(i + 1, j, item[j])house_list.save(Savapath)                                               # 存储# 程序从这里开始执行
if __name__ == "__main__":main()print("爬取完毕!")

这篇关于使用Xpath和Requests实现爬虫并存储在Excel表里的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/252293

相关文章

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

Python脚本实现自动删除C盘临时文件夹

《Python脚本实现自动删除C盘临时文件夹》在日常使用电脑的过程中,临时文件夹往往会积累大量的无用数据,占用宝贵的磁盘空间,下面我们就来看看Python如何通过脚本实现自动删除C盘临时文件夹吧... 目录一、准备工作二、python脚本编写三、脚本解析四、运行脚本五、案例演示六、注意事项七、总结在日常使用

Java实现Excel与HTML互转

《Java实现Excel与HTML互转》Excel是一种电子表格格式,而HTM则是一种用于创建网页的标记语言,虽然两者在用途上存在差异,但有时我们需要将数据从一种格式转换为另一种格式,下面我们就来看看... Excel是一种电子表格格式,广泛用于数据处理和分析,而HTM则是一种用于创建网页的标记语言。虽然两

java图像识别工具类(ImageRecognitionUtils)使用实例详解

《java图像识别工具类(ImageRecognitionUtils)使用实例详解》:本文主要介绍如何在Java中使用OpenCV进行图像识别,包括图像加载、预处理、分类、人脸检测和特征提取等步骤... 目录前言1. 图像识别的背景与作用2. 设计目标3. 项目依赖4. 设计与实现 ImageRecogni

Java中Springboot集成Kafka实现消息发送和接收功能

《Java中Springboot集成Kafka实现消息发送和接收功能》Kafka是一个高吞吐量的分布式发布-订阅消息系统,主要用于处理大规模数据流,它由生产者、消费者、主题、分区和代理等组件构成,Ka... 目录一、Kafka 简介二、Kafka 功能三、POM依赖四、配置文件五、生产者六、消费者一、Kaf

python管理工具之conda安装部署及使用详解

《python管理工具之conda安装部署及使用详解》这篇文章详细介绍了如何安装和使用conda来管理Python环境,它涵盖了从安装部署、镜像源配置到具体的conda使用方法,包括创建、激活、安装包... 目录pytpshheraerUhon管理工具:conda部署+使用一、安装部署1、 下载2、 安装3

Mysql虚拟列的使用场景

《Mysql虚拟列的使用场景》MySQL虚拟列是一种在查询时动态生成的特殊列,它不占用存储空间,可以提高查询效率和数据处理便利性,本文给大家介绍Mysql虚拟列的相关知识,感兴趣的朋友一起看看吧... 目录1. 介绍mysql虚拟列1.1 定义和作用1.2 虚拟列与普通列的区别2. MySQL虚拟列的类型2

Python进阶之Excel基本操作介绍

《Python进阶之Excel基本操作介绍》在现实中,很多工作都需要与数据打交道,Excel作为常用的数据处理工具,一直备受人们的青睐,本文主要为大家介绍了一些Python中Excel的基本操作,希望... 目录概述写入使用 xlwt使用 XlsxWriter读取修改概述在现实中,很多工作都需要与数据打交

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

关于@MapperScan和@ComponentScan的使用问题

《关于@MapperScan和@ComponentScan的使用问题》文章介绍了在使用`@MapperScan`和`@ComponentScan`时可能会遇到的包扫描冲突问题,并提供了解决方法,同时,... 目录@MapperScan和@ComponentScan的使用问题报错如下原因解决办法课外拓展总结@