5i5j的房屋出租爬取

2024-02-26 07:08
文章标签 爬取 房屋出租 5i5j

本文主要是介绍5i5j的房屋出租爬取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

# 导入模块
import requests
from lxml import etree
import time
# 导入mysql封装的class类
from mysql import MysqlHelper
# 实例化mysql类
mc = MysqlHelper()
def wujia(url,headers):# 定义要爬取的页数for i in range(1,21):fullurl = url.format(i)response = requests.get(fullurl,headers=headers)html = response.texthtml = etree.HTML(html)ul_list = html.xpath('//ul[@class="pList"]/li')# print(ul_list)for i in ul_list:# print(i)# 获取地址dizhi = i.xpath('./div[2]/div/p[2]/text()')# print(dizhi)if dizhi:dizhi = dizhi[0].replace('·','').strip()print(dizhi)else:print('无地址')#获取租房介绍room_data = i.xpath('./div[2]/div[1]/p[1]/text()')[0].replace(' ','').replace('·','')print(room_data)# 获取价钱/月money = i.xpath('./div[2]/div[1]/div//strong/text()')[0]money = int(money)print(money)
    #写sql语句,存入数据库sql = 'insert into 5i5j(dizhi,room_data,money) values ("%s","%s","%s")'data = (dizhi,room_data,money)#调用mysql类中的执行方法mc.execute_modify_sql(sql,data)
#设置休息时间
# time.sleep(3)
#执行函数和传参
if __name__ == '__main__':url = 'https://bj.5i5j.com/zufang/huilongguan/n{}/'headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',# 'Accept-Encoding': 'gzip, deflate, br',# 'Accept-Language': 'zh-CN,zh;q=0.9','Cache-Control': 'max-age=0','Connection': 'keep-alive','Cookie': '_Jo0OQK=1349C4397FAF634DC28494B7372F7EE6A6BAFA7626819FB7027758023F7044ABBF04A8994B1C24AC6546C9F8AD8FBB6099D9577A4343988ABD03B1C034CCCF5A512DE8682CA7D10E3B498FB9E3C853EFEE298FB9E3C853EFEE215D8BEE34E43E5C0GJ1Z1IQ==; _ga=GA1.2.1741003594.1534567087; _gid=GA1.2.429105984.1534567087; yfx_c_g_u_id_10000001=_ck18081812380714557549321883736; PHPSESSID=a1eros861f9teh5n4r6lv6f30j; Hm_lvt_94ed3d23572054a86ed341d64b267ec6=1534567088,1534572065; zufang_BROWSES=41290006; domain=bj; yfx_f_l_v_t_10000001=f_t_1534567087448__r_t_1534567087448__v_t_1534591789846__r_c_0; Hm_lpvt_94ed3d23572054a86ed341d64b267ec6=1534591798','Host': 'bj.5i5j.com','Referer': 'https://bj.5i5j.com/zufang/huilongguan/n2/','Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',}wujia(url,headers)

这篇关于5i5j的房屋出租爬取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/748038

相关文章

0基础学习爬虫系列:网页内容爬取

1.背景 今天我们来实现,监控网站最新数据爬虫。 在信息爆炸的年代,能够有一个爬虫帮你,将你感兴趣的最新消息推送给你,能够帮你节约非常多时间,同时确保不会miss重要信息。 爬虫应用场景: 应用场景主要功能数据来源示例使用目的搜索引擎优化 (SEO)分析关键词密度、外部链接质量等网站元数据、链接提升网站在搜索引擎中的排名市场研究收集竞品信息、价格比较电商网站、行业报告制定更有效的市场策略舆情

python网络爬虫(五)——爬取天气预报

1.注册高德天气key   点击高德天气,然后按照开发者文档完成key注册;作为爬虫练习项目之一。从高德地图json数据接口获取天气,可以获取某省的所有城市天气,高德地图的这个接口还能获取县城的天气。其天气查询API服务地址为https://restapi.amap.com/v3/weather/weatherInfo?parameters,若要获取某城市的天气推荐 2.安装MongoDB

【python】—— Python爬虫实战:爬取珠海市2011-2023年天气数据并保存为CSV文件

目录 目标 准备工作 爬取数据的开始时间和结束时间 爬取数据并解析 将数据转换为DataFrame并保存为CSV文件         本文将介绍如何使用Python编写一个简单的爬虫程序,以爬取珠海市2011年至2023年的天气数据,并将这些数据保存为CSV文件。我们将涉及到以下知识点: 使用requests库发送HTTP请求使用lxml库解析HTML文档使用dateti

scrapy 设置爬取深度 (七)

通过在settings.py中设置DEPTH_LIMIT的值可以限制爬取深度,这个深度是与start_urls中定义url的相对值。也就是相对url的深度。例如定义url为:http://www.domz.com/game/,DEPTH_LIMIT=1那么限制爬取的只能是此url下一级的网页。深度大于设置值的将被ignore。       如图:

scrapy自动多网页爬取CrawlSpider类(五)

一.目的。 自动多网页爬取,这里引出CrawlSpider类,使用更简单方式实现自动爬取。   二.热身。 1.CrawlSpider (1)概念与作用: 它是Spider的派生类,首先在说下Spider,它是所有爬虫的基类,对于它的设计原则是只爬取start_url列表中的网页,而从爬取的网页中获取link并继续爬取的工作CrawlSpider类更适合。 ࿰

Scrapy ——自动多网页爬取(抓取某人博客所有文章)(四)

首先创建project:   [python]  view plain  copy     转存失败重新上传取消<

python爬取网页接口数据,以yearning为例

模拟登陆获取token,传token到对应的接口获取数据,下载到csv里面  import getpassimport osimport requestsimport timeimport csvfrom datetime import datetimeclass Yearning:def __init__(self):self.session = requests.Session()

爬取需要的图片

爬取图片 import re,requests,time#导入所需要的库headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36 Edg/128.0.0.0","Cookie":"B

爬取知乎回答

登录网站 参考这篇文章 在 Network 中随意点击一个 Fetch 项(注意前面的小图标),在右边的 Headers 中找到 Cookie,这段代码就是知乎 Cookie。 import requests# 引入ssl,取消全局ssl认证:# 设置好urlurl = 'https://www.zhihu.com/'# 设置好headersheaders = {'User-A

防御网站数据爬取:策略与实践

随着互联网的发展,数据成为企业最宝贵的资产之一。然而,这种宝贵的数据也吸引着不法分子的目光,利用自动化工具(即爬虫)非法抓取网站上的数据,给企业和个人带来了严重的安全隐患。为了保护网站免受爬虫侵害,我们需要实施一系列技术和策略性的防御措施。 1. 了解爬虫的工作原理 爬虫通常按照一定的规则自动浏览互联网上的网页,抓取信息。它们通过解析HTML页面,提取所需数据,并可能进一步跟踪页面上的链接,继