【Python_requests学习笔记(二)】基于requests和lxml模块,爬取链家房产数据

2024-01-23 08:40

本文主要是介绍【Python_requests学习笔记(二)】基于requests和lxml模块,爬取链家房产数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基于requests和lxml模块,爬取链家房产数据

前言

此篇文章中介绍基于requests,lxml模块和Xpath选择器,爬取链家房产数据的案例。

正文

1、需求梳理

抓取链家二手房网站中的房源信息,如房源名称、地址、户型、面积、方位、是否精装、楼层、年代、类型、总价。

2、爬虫思路

  1. 确认所抓数据在响应内容中是否存在
    所抓取的内容在响应内容中存在在这里插入图片描述
  2. 分析url地址规律
    第一页:https://qd.lianjia.com/ershoufang/pg
    第二页:https://qd.lianjia.com/ershoufang/pg2/
    第三页:https://qd.lianjia.com/ershoufang/pg3/

    第N页:https://qd.lianjia.com/ershoufang/pgn/
    url地址:https://qd.lianjia.com/ershoufang/pg{n}/
  3. 写xpath表达式
    在这里插入图片描述
    从上图li标签中可以看到 检查中存在两个属性:
    clear LOGCLICKDATA
    clear LOGVIEWDATA LOGCLICKDATA
    所以需要通过检查网页源代码中查看,究竟以哪一个为准:
    在这里插入图片描述
    以此确定基准xpath://li[@class='clear LOGVIEWDATA LOGCLICKDATA']
    for循环依次遍历后得到详细信息:
    名称:.//div[@class='positionInfo']/a[1]/text()
    区域:.//div[@class='positionInfo']/a[2]/text()
    详细信息:.//div[@class='houseInfo']/text()
    总价:.//div[@class='totalPrice']/span/text()
    单价:.//div[@class='unitPrice']/span/text()
  4. 编写程序框架、完善程序

注意:

1、在写xpath表达式时一切以响应内容为主
2、页面HTML为最终渲染完之后的,和响应内容的HTML不一定相同
3、防止页面中出现特殊数据,所以在取下标索引前需要先进行判断
4、如果出现特殊页面迟迟不给响应,则设立重试机制

3、程序实现

  1. 初始化函数
    def __init__(self):self.url = 'https://qd.lianjia.com/ershoufang/pg{}/'  # url地址self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}  # 重构请求头self.i = 0  # 初始化计数
  1. 获取响应内容函数
    def get_html(self, url):"""function:  获取响应内容函数in:  url:传入的url地址out:  Nonereturn:  int >0 okothers:  Get Response Content Function"""for i in range(3):  # 如果有异常,尝试三次# noinspection PyBroadExceptiontry:html = requests.get(url=url, headers=self.headers, timeout=3).text  # 设置3秒钟的超时时间self.parse_html(html)  # 调用 xpath提取数据函数self.i += 1  # 爬取成功,计数+1print("第{}页爬取成功!".format(self.i))  # 打印break  # 跳出except Exception as e:print("Retry......")  # 捕捉异常
  1. xpath提取数据函数
    def parse_html(self, html):"""function:  xpath提取数据函数in:  html:响应内容out:  Nonereturn:  Noneothers:  Extract Data By Xpath Function"""p = etree.HTML(html)  # 创造解析对象li_list = p.xpath("//li[@class='clear LOGVIEWDATA LOGCLICKDATA']")  # 解析对象调用xpathitem = {}  # 定义一个空字典for li in li_list:  # 遍历 解析对象调用xpath后 得到的数据name_list = li.xpath(".//div[@class='positionInfo']/a[1]/text()")item["名称"] = name_list[0].strip() if name_list else None  # 判断得到的名称列表是否为空address_list = li.xpath(".//div[@class='positionInfo']/a[2]/text()")item["地址"] = address_list[0].strip() if name_list else None  # 判断得到的地址列表是否为空info_li = li.xpath(".//div[@class='houseInfo']/text()")if info_li:  # 判断房源信息是否为空info_li = info_li[0].split("|")  # 用"|"分割if len(info_li) == 7:  # 长度=7item["户型"] = info_li[0].strip()item["面积"] = info_li[1].strip()item["朝向"] = info_li[2].strip()item["装修"] = info_li[3].strip()item["楼层"] = info_li[4].strip()item["年限"] = info_li[5].strip()item["种类"] = info_li[6].strip()else:if len(info_li) == 6:  # 长度=6item["户型"] = info_li[0].strip()item["面积"] = info_li[1].strip()item["朝向"] = info_li[2].strip()item["装修"] = info_li[3].strip()item["楼层"] = info_li[4].strip()item["种类"] = info_li[5].strip()else:if len(info_li) == 8:  # 长度=8item["户型"] = info_li[0].strip()item["面积"] = info_li[1].strip()item["朝向"] = info_li[2].strip()item["装修"] = info_li[3].strip()item["楼层"] = info_li[4].strip()item["年限"] = info_li[5].strip()item["种类"] = info_li[6].strip()item["种类"] += info_li[7].strip()else:item["户型"] = item["面积"] = item["朝向"] = item["装修"] = item["楼层"] = item["年限"] = item["种类"] = Noneelse:item["户型"] = item["面积"] = item["朝向"] = item["装修"] = item["楼层"] = item["年限"] = item["种类"] = Nonetotal_list = li.xpath(".//div[@class='totalPrice totalPrice2']/span/text()")item["总价"] = total_list[0].strip() if total_list else None  # 判断得到的总价列表是否为空unit_list = li.xpath(".//div[@class='unitPrice']/span/text()")item["单价"] = unit_list[0].strip() if unit_list else None  # 判断得到的单价列表是否为空print(item)  # 打印信息
  1. 程序入口函数
    def run(self):"""function:  程序入口函数in:  Noneout:  Nonereturn:  Noneothers:  Program Entry Function"""for pg in range(1, 6):  # 爬取1-5页url = self.url.format(pg)  # 拼接url地址self.get_html(url)  # 调用 获取响应内容函数time.sleep(random.randint(1, 2))  # 1-2s延时

4、完整代码

import time
import random
import requests
from lxml import etreeclass LianjiaSpider:"""链家二手房数据抓取"""def __init__(self):self.url = 'https://qd.lianjia.com/ershoufang/pg{}/'  # url地址self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}  # 重构请求头self.i = 0  # 初始化计数def get_html(self, url):"""function:  获取响应内容函数in:  url:传入的url地址out:  Nonereturn:  int >0 okothers:  Get Response Content Function"""for i in range(3):  # 如果有异常,尝试三次# noinspection PyBroadExceptiontry:html = requests.get(url=url, headers=self.headers, timeout=3).text  # 设置3秒钟的超时时间self.parse_html(html)  # 调用 xpath提取数据函数self.i += 1  # 爬取成功,计数+1print("第{}页爬取成功!".format(self.i))  # 打印break  # 跳出except Exception as e:print("Retry......")  # 捕捉异常def parse_html(self, html):"""function:  xpath提取数据函数in:  html:响应内容out:  Nonereturn:  Noneothers:  Extract Data By Xpath Function"""p = etree.HTML(html)  # 创造解析对象li_list = p.xpath("//li[@class='clear LOGVIEWDATA LOGCLICKDATA']")  # 解析对象调用xpathitem = {}  # 定义一个空字典for li in li_list:  # 遍历 解析对象调用xpath后 得到的数据name_list = li.xpath(".//div[@class='positionInfo']/a[1]/text()")item["名称"] = name_list[0].strip() if name_list else None  # 判断得到的名称列表是否为空address_list = li.xpath(".//div[@class='positionInfo']/a[2]/text()")item["地址"] = address_list[0].strip() if name_list else None  # 判断得到的地址列表是否为空info_li = li.xpath(".//div[@class='houseInfo']/text()")if info_li:  # 判断房源信息是否为空info_li = info_li[0].split("|")  # 用"|"分割if len(info_li) == 7:  # 长度=7item["户型"] = info_li[0].strip()item["面积"] = info_li[1].strip()item["朝向"] = info_li[2].strip()item["装修"] = info_li[3].strip()item["楼层"] = info_li[4].strip()item["年限"] = info_li[5].strip()item["种类"] = info_li[6].strip()else:if len(info_li) == 6:  # 长度=6item["户型"] = info_li[0].strip()item["面积"] = info_li[1].strip()item["朝向"] = info_li[2].strip()item["装修"] = info_li[3].strip()item["楼层"] = info_li[4].strip()item["种类"] = info_li[5].strip()else:if len(info_li) == 8:  # 长度=8item["户型"] = info_li[0].strip()item["面积"] = info_li[1].strip()item["朝向"] = info_li[2].strip()item["装修"] = info_li[3].strip()item["楼层"] = info_li[4].strip()item["年限"] = info_li[5].strip()item["种类"] = info_li[6].strip()item["种类"] += info_li[7].strip()else:item["户型"] = item["面积"] = item["朝向"] = item["装修"] = item["楼层"] = item["年限"] = item["种类"] = Noneelse:item["户型"] = item["面积"] = item["朝向"] = item["装修"] = item["楼层"] = item["年限"] = item["种类"] = Nonetotal_list = li.xpath(".//div[@class='totalPrice totalPrice2']/span/text()")item["总价"] = total_list[0].strip() if total_list else None  # 判断得到的总价列表是否为空unit_list = li.xpath(".//div[@class='unitPrice']/span/text()")item["单价"] = unit_list[0].strip() if unit_list else None  # 判断得到的单价列表是否为空print(item)  # 打印信息def run(self):"""function:  程序入口函数in:  Noneout:  Nonereturn:  Noneothers:  Program Entry Function"""for pg in range(1, 6):  # 爬取1-5页url = self.url.format(pg)  # 拼接url地址self.get_html(url)  # 调用 获取响应内容函数time.sleep(random.randint(1, 2))  # 1-2s延时if __name__ == '__main__':spider = LianjiaSpider()  # 类实例化spider.run()  # 调用入口函数

5、实现效果

在这里插入图片描述

这篇关于【Python_requests学习笔记(二)】基于requests和lxml模块,爬取链家房产数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/635840

相关文章

Python结合PyWebView库打造跨平台桌面应用

《Python结合PyWebView库打造跨平台桌面应用》随着Web技术的发展,将HTML/CSS/JavaScript与Python结合构建桌面应用成为可能,本文将系统讲解如何使用PyWebView... 目录一、技术原理与优势分析1.1 架构原理1.2 核心优势二、开发环境搭建2.1 安装依赖2.2 验

一文详解如何在Python中从字符串中提取部分内容

《一文详解如何在Python中从字符串中提取部分内容》:本文主要介绍如何在Python中从字符串中提取部分内容的相关资料,包括使用正则表达式、Pyparsing库、AST(抽象语法树)、字符串操作... 目录前言解决方案方法一:使用正则表达式方法二:使用 Pyparsing方法三:使用 AST方法四:使用字

Python列表去重的4种核心方法与实战指南详解

《Python列表去重的4种核心方法与实战指南详解》在Python开发中,处理列表数据时经常需要去除重复元素,本文将详细介绍4种最实用的列表去重方法,有需要的小伙伴可以根据自己的需要进行选择... 目录方法1:集合(set)去重法(最快速)方法2:顺序遍历法(保持顺序)方法3:副本删除法(原地修改)方法4:

Python运行中频繁出现Restart提示的解决办法

《Python运行中频繁出现Restart提示的解决办法》在编程的世界里,遇到各种奇怪的问题是家常便饭,但是,当你的Python程序在运行过程中频繁出现“Restart”提示时,这可能不仅仅是令人头疼... 目录问题描述代码示例无限循环递归调用内存泄漏解决方案1. 检查代码逻辑无限循环递归调用内存泄漏2.

Python中判断对象是否为空的方法

《Python中判断对象是否为空的方法》在Python开发中,判断对象是否为“空”是高频操作,但看似简单的需求却暗藏玄机,从None到空容器,从零值到自定义对象的“假值”状态,不同场景下的“空”需要精... 目录一、python中的“空”值体系二、精准判定方法对比三、常见误区解析四、进阶处理技巧五、性能优化

使用Python构建一个Hexo博客发布工具

《使用Python构建一个Hexo博客发布工具》虽然Hexo的命令行工具非常强大,但对于日常的博客撰写和发布过程,我总觉得缺少一个直观的图形界面来简化操作,下面我们就来看看如何使用Python构建一个... 目录引言Hexo博客系统简介设计需求技术选择代码实现主框架界面设计核心功能实现1. 发布文章2. 加

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient

python logging模块详解及其日志定时清理方式

《pythonlogging模块详解及其日志定时清理方式》:本文主要介绍pythonlogging模块详解及其日志定时清理方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录python logging模块及日志定时清理1.创建logger对象2.logging.basicCo

Python如何自动生成环境依赖包requirements

《Python如何自动生成环境依赖包requirements》:本文主要介绍Python如何自动生成环境依赖包requirements问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录生成当前 python 环境 安装的所有依赖包1、命令2、常见问题只生成当前 项目 的所有依赖包1、

如何将Python彻底卸载的三种方法

《如何将Python彻底卸载的三种方法》通常我们在一些软件的使用上有碰壁,第一反应就是卸载重装,所以有小伙伴就问我Python怎么卸载才能彻底卸载干净,今天这篇文章,小编就来教大家如何彻底卸载Pyth... 目录软件卸载①方法:②方法:③方法:清理相关文件夹软件卸载①方法:首先,在安装python时,下