python爬虫的国内外现状_Python爬虫进阶之去哪儿酒店(国内外)

2023-12-24 21:20

本文主要是介绍python爬虫的国内外现状_Python爬虫进阶之去哪儿酒店(国内外),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

之前发了一篇爬取去哪儿自由行的数据后,有一个读者在后台问到我怎么爬取去哪儿酒店的数据。当时简单看了下,觉得难度不大。就跟他讲了下思路。因为当时爬取自由行的网站选取的是移动端。为了能让读者学习到更多的知识,我们今天选取了去哪儿的电脑端来进行爬取。其实爬虫的思路都是一样的,无非就是先获取网页信息,然后再解析。解析之后就提取所要的数据。如果要对数据要进一步的分析的话。还需要对数据进行清洗,建模等一系列操作。今天作者给大家带来的就是去哪儿酒店酒店信息的获取,并进行数据清洗,分析。

1. 准备工作

本篇案例主要涉及到的Python的库有Selenium,pymongo库,以及解析库pyquery。清洗库pandas库和matplotlib库,并且安装好了Chrome浏览器和配置好了ChromeDriver。

2. 页面分析

首先访问去哪儿网址:"https://www.qunar.com/",然后选择酒店这一栏。我们可以看到目前的链接为:"http://hotel.qunar.com/"。这个就是我们要访问的域名。如下图所示。

我们点击页面的目的地输入城市,然后点击搜索即可出现酒店列表,即我们可以用Selenium来控制浏览器输入城市名,然后点击。我们进入到酒店页面。如下图所示。

如果有更多的业务需求,我们可以选择菜单上的酒店类型,实现思路一样。在此我们默认为"酒店搜索"这一栏。并且选择按评分来筛选酒店。我们随机选择一个酒店名,右击打开开发者工具。如下图所示。

我们经过分析可知每个酒店的内容是在id为"jxContentPanel"中,并且在其下class为"b_result_box js_list_block"中可以看到每个酒店的详细信息。如下图所示。

我们就可以pyquery解析库来解析网页获取我们所需要的信息了,到此网页的解析已经完成。下面我们用代码来实现整个抓取的过程。

3. 实战演练

3.1 获取目的地城市列表

这里我们可以使用我们之前抓取自由行数据时抓取到的目的地城市列表,实现如下:

3.2 获取去哪儿页面详情页

我们已经有目的地城市列表了,所以我们在在访问去哪儿网址时,只用输入所获得的城市就可以进行搜索了。然后就可以获取酒店页面了。 并且我们要获得多个页面的酒店。所以也要实现翻页的方法。实现如下:

3.3解析酒店列表

我们已经获得了酒店列表页面,接下来用解析库pyquery进行解析,就可以获取我们想要的数据了。实现如下:

3.4保存到数据库和csv文件

3.5运行代码

3.6结果查看

MongoDB数据库结果:

CSV文件:

3.7数据清洗

利用pandas库进行数据清洗,实现如下:

结果如下 :

3.8 项目代码

4. 结语

此项目主要功能是爬取去哪儿酒店,如果你要爬取去哪儿的其它业务,思路也是一样的。

If it works for you.Please,star.

对爬虫,数据分析,算法感兴趣的朋友们,可以加微信公众号 TWcoding,我们一起玩转Python。

推荐阅读:先生:大型爬虫案例:爬取去哪儿网(目前已采集数据10万条)​zhuanlan.zhihu.comv2-c4649ffa9d7ae25676adfb9c5cf23671_180x120.jpg先生:爬取今日头条NBA版块​zhuanlan.zhihu.comv2-f48e2d2fdba31727c4c359511b65db15_180x120.jpg先生:数据分析之《我不是药神》​zhuanlan.zhihu.comv2-c28e623145984b035c1314581f4a0824_180x120.jpg

这篇关于python爬虫的国内外现状_Python爬虫进阶之去哪儿酒店(国内外)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/533160

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

Java进阶13讲__第12讲_1/2

多线程、线程池 1.  线程概念 1.1  什么是线程 1.2  线程的好处 2.   创建线程的三种方式 注意事项 2.1  继承Thread类 2.1.1 认识  2.1.2  编码实现  package cn.hdc.oop10.Thread;import org.slf4j.Logger;import org.slf4j.LoggerFactory

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

[MySQL表的增删改查-进阶]

🌈个人主页:努力学编程’ ⛅个人推荐: c语言从初阶到进阶 JavaEE详解 数据结构 ⚡学好数据结构,刷题刻不容缓:点击一起刷题 🌙心灵鸡汤:总有人要赢,为什么不能是我呢 💻💻💻数据库约束 🔭🔭🔭约束类型 not null: 指示某列不能存储 NULL 值unique: 保证某列的每行必须有唯一的值default: 规定没有给列赋值时的默认值.primary key:

nudepy,一个有趣的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个有趣的 Python 库 - nudepy。 Github地址:https://github.com/hhatto/nude.py 在图像处理和计算机视觉应用中,检测图像中的不适当内容(例如裸露图像)是一个重要的任务。nudepy 是一个基于 Python 的库,专门用于检测图像中的不适当内容。该

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

Flutter 进阶:绘制加载动画

绘制加载动画:由小圆组成的大圆 1. 定义 LoadingScreen 类2. 实现 _LoadingScreenState 类3. 定义 LoadingPainter 类4. 总结 实现加载动画 我们需要定义两个类:LoadingScreen 和 LoadingPainter。LoadingScreen 负责控制动画的状态,而 LoadingPainter 则负责绘制动画。