手把手教你用Python网络爬虫爬取新房数据

2023-10-08 23:50

本文主要是介绍手把手教你用Python网络爬虫爬取新房数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

念天地之悠悠,独怆然而涕下。

项目背景

大家好,我是J哥。

新房数据,对于房地产置业者来说是买房的重要参考依据,对于房地产开发商来说,也是分析竞争对手项目的绝佳途径,对于房地产代理来说,是踩盘前的重要准备。

今天J哥以「惠民之家」为例,手把手教你利用Python将惠州市新房数据批量抓取下来,共采集到近千个楼盘,包含楼盘名称、销售价格、主力户型、开盘时间、容积率、绿化率等「41个字段」。数据预览如下:

后台回复「新房」二字,可领取本文代码。

项目目标

惠民之家首页网址:

http://www.fz0752.com/

新房列表网址:

http://www.fz0752.com/project/list.shtml

选择一个新房并点击「详情信息」即可找到目标字段:

项目准备

软件:Pycharm

第三方库:requests,fake_useragent,lxml

网站地址:http://www.fz0752.com/

网页分析

列表页分析

打开新房列表网页,点击「下一页」后,网址变成:

http://www.fz0752.com/project/list.shtml?state=&key=&qy=&area=&danjia=&func=&fea=&type=&kp=&mj=&sort=&pageNO=2

很显然,这是静态网页,翻页参数为「pageNO」,区域参数为「qy」,其余参数也很好理解,点击对应筛选项即可发现网页链接变化。咱们可以通过遍历区域和页码,将新房列表的房源URL提取下来,再遍历这些URL,抓取到每个房源的详情信息。

详情页分析

选择一个新房URL,点击进去,链接如下:

http://newhouse.fz0752.com/fontHtml/html/project/00020170060.html

即这个新房的id为「00020170060」,再点击详情信息,链接变为:

http://newhouse.fz0752.com/project/detail.shtml?num=20170060

即这个新房的「详情信息」的id为「20170060」,我们可以大胆假设这个id就是新房id截取的一部分。多找几个新房点击尝试,很容易验证这个规律。

反爬分析

相同的ip地址频繁访问同一个网页会有被封风险,本文采用fake_useragent,将随机生成的User-Agent请求头去访问网页,将减少ip封锁的风险。

代码实现

导入爬虫相关库,定义一个主函数,构建区域列表(不同区域对应不用的区域id),遍历并用requests去请求由区域参数和页码参数拼接的URL。这里将页码设置50上限,当遍历的某个房源URL长度为0(即不存在新房数据)时,直接break,让程序进行下一个区域的遍历,直至所有数据抓取完毕,程序停止。

# -*- coding = uft-8 -*-
# @Time : 2020/12/21 9:29 下午
# @Author : J哥
# @File : newhouse.pyimport csv
import time
import random
import requests
import traceback
from lxml import etree
from fake_useragent import UserAgentdef main():#46:惠城区,47:仲恺区,171:惠阳区,172:大亚湾,173:博罗县,174:惠东县,175:龙门县qy_list = [46,47,171,172,173,174,175]for qy in qy_list:   #遍历区域for page in range(1,50):   #遍历页数url = f'http://www.fz0752.com/project/list.shtml?state=&key=&qy={qy}&area=&danjia=&func=&fea=&type=&kp=&mj=&sort=&pageNO={page}'response = requests.request("GET", url, headers = headers,timeout = 5)print(response.status_code)if response.status_code == 200:re = response.content.decode('utf-8')print("正在提取" + str(qy) +'第' + str(page) + "页")#time.sleep(random.uniform(1, 2))print("-" * 80)# print(re)parse = etree.HTML(re)get_href(parse,qy)num = ''.join(parse.xpath('//*[@id="parent-content"]/div/div[6]/div/div[1]/div[2]/div[1]/div[2]/div[1]/div[1]/a/@href'))print(len(num))if len(num) == 0:breakif __name__ == '__main__':ua = UserAgent(verify_ssl=False)headers = {"User-Agent": ua.random}time.sleep(random.uniform(1, 2))main()

发送请求,获取新房列表网页,并解析到所有新房URL,同时将新房id替换为详情信息id。在程序运行中发现有少数新房URL不一致,因此这里做了判断,修改后可以获取完整的详情信息id,并拼接出对应的URL。

def get_href(parse,qy):items = parse.xpath('//*[@id="parent-content"]/div/div[6]/div/div[1]/div[2]/div')try:for item in items:href = ''.join(item.xpath('./div[2]/div[1]/div[1]/a/@href')).strip()print("初始href为:",href)#print(len(href))if len(href) > 25:href1 = 'http://newhouse.fz0752.com/project/detail.shtml?num=' + href[52:].replace(".html","")else:href1 = 'http://newhouse.fz0752.com/project/detail.shtml?num=' + href[15:]print("详情href为:",href1)try:get_detail(href1,qy)except:passexcept Exception:print(traceback.print_exc())

打印结果如下:

详情信息URL找到后,定义一个函数去请求详情页数据,同时携带qy参数,最后将其保存到csv中。

def get_detail(href1,qy):time.sleep(random.uniform(1, 2))response = requests.get(href1, headers=headers,timeout = 5)if response.status_code == 200:source = response.texthtml = etree.HTML(source)

开始解析详情页中的各个字段,这里用到xpath进行数据解析,由于需要解析的字段太多,高达41个,限于篇幅,以下仅给出部分字段解析代码。当然,其他字段解析基本一样。

#项目状态
try:xmzt = html.xpath('//*[@id="parent-content"]/div/div[3]/div[3]/div[1]/div[1]/text()')[0].strip()
except:xmzt = None
#项目名称
try:name = html.xpath('//*[@id="parent-content"]/div/div[3]/div[3]/div[1]/h1/text()')[0].strip()
except:name = None
#项目简介
ps = html.xpath('//*[@id="parent-content"]/div/div[3]/div[5]/div[2]/div')
for p in ps:try:xmjj = p.xpath('./p[1]/text()')[0].strip()except:xmjj = None
infos = html.xpath('//*[@id="parent-content"]/div/div[3]/div[5]/div[1]/div/table/tbody')
for info in infos:#行政区域try:xzqy = info.xpath('./tr[1]/td[1]/text()')[0].strip()except:xzqy = None#物业类型try:wylx = info.xpath('./tr[2]/td[1]/text()')[0].strip()except:wylx = None#销售价格try:xsjg = info.xpath('./tr[3]/td[1]/text()')[0].strip()except:xsjg = None······data = {'xmzt':xmzt,'name':name,'xzqy':xzqy,······'qy':qy}print(data)

解析完数据后,将其置于字典中,打印结果如下:然后追加保存为csv:

try:with open('hz_newhouse.csv', 'a', encoding='utf_8_sig', newline='') as fp:fieldnames = ['xmzt','name','xzqy',······,'qy']writer = csv.DictWriter(fp, fieldnames = fieldnames)writer.writerow(data)
except Exception:print(traceback.print_exc())

当然,我们也可以读取csv文件,并写入Excel:

df = pd.read_csv("newhouse.csv",names=['name','xzqy','wylx',······,'state'])
df = df.drop_duplicates()
df.to_excel("newhouse.xlsx",index=False)

总结

  1. 本文基于Python爬虫技术,提供了一种更直观的抓取新房数据的方法。

  2. 不建议抓取太多,容易使得服务器负载,浅尝辄止即可。

  3. 如需本文完整代码,后台回复「新房」两个字即可获取。

------------------- End -------------------

往期精彩文章推荐:

  1. 反爬虫策略手把手教你使用FastAPI来限制接口的访问速率

  2. 一篇文章带你解锁Python库中操作系统级别模块psutil

  3. 盘点5种基于Python生成的个性化语音方法

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~

这篇关于手把手教你用Python网络爬虫爬取新房数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/168819

相关文章

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分