爬虫项目实战五:爬取无印良品

2024-02-03 22:30

本文主要是介绍爬虫项目实战五:爬取无印良品,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

爬取无印良品门店信息

      • 目标
      • 项目准备
      • 网站分析
      • 反爬分析
      • 网址分析
      • 代码实现
      • 效果显示

目标

爬取城市无印良品门店信息,保存为csv文件到本地。

项目准备

软件:Pycharm
第三方库:requests,fake_useragent,csv
网站地址:https://www.muji.com/storelocator/?c=cn

网站分析

打开网站看一下。
在这里插入图片描述
抓包看一下F12检查元素选择Network,输入框要输入一下城市名称。这里尝试输入上海市。
在这里插入图片描述
这是各种数据包。
在这里插入图片描述
打开这个数据包,会发现这里就是很多门店的详情信息。
在这里插入图片描述

反爬分析

同一个ip地址去多次访问会面临被封掉的风险,这里采用fake_useragent,产生随机的User-Agent请求头进行访问。

网址分析

在这里插入图片描述

真实的链接地址,试一下能不能找到什么规律。

https://www.muji.com/storelocator/_ACTION=_SEARCH&c=cn&lang=LC&baidu_flag=1&keyword=%E4%B8%8A%E6%B5%B7%E5%B8%82
https://www.muji.com/storelocator/_ACTION=_SEARCH&c=cn&lang=LC&baidu_flag=1&keyword=%E8%8B%8F%E5%B7%9E%E5%B8%82

输入几个不同的城市,发现只有后面keyword=后面的发生变化。经过验证,在其后输入城市名称就可以成功访问。

代码实现

1.导入相对应的第三方库,定义一个class类继承object,定义init方法继承self,主函数main继承self。

import  requests
from fake_useragent import UserAgent
import csv
class MUJI(object):def __init__(self):self.url='https://www.muji.com/storelocator/?_ACTION=_SEARCH&c=cn&lang=LC&baidu_flag=1&keyword={}'ua = UserAgent(verify_ssl=False)for i in range(1, 100):self.headers = {'User-Agent': ua.random}def main(self):pass
if __name__ == '__main__':spider = MUJI()spider.main()

2.发送请求,获取网页。

    def get_html(self,url):response=requests.get(url,headers=self.headers)html=response.json()#html=response.content.decode('unicode_escape')return html

开始的时候会面临这样的问题:
在这里插入图片描述
这里会出现这样的编码格式。不过没什么影响,经过查阅资料使用html=response.content.decode('unicode_escape')可以转化为汉字。
3.解析网页并保存。

    def parse_html(self,html):for data in html:shopname=data['shopname']shopaddress=data['shopaddress']opentime=data['opentime']tel=data['tel']#print(shopname,opentime,shopaddress,tel)with open('F:/pycharm文件/document/data.csv', 'a', newline='') as f:csvwriter = csv.writer(f, delimiter=',')csvwriter.writerow([shopname,opentime,shopaddress,tel])

4.主函数及函数调用。

    def main(self):address=str(input('请输入要查询的城市:'))url=self.url.format(address)html=self.get_html(url)self.parse_html(html)

效果显示

在这里插入图片描述
打开文件目录,会自动生成一个data.csv文件。
打开看一下。
在这里插入图片描述
完整代码如下:

import  requests
from fake_useragent import UserAgent
import csv
class MUJI(object):def __init__(self):self.url='https://www.muji.com/storelocator/?_ACTION=_SEARCH&c=cn&lang=LC&baidu_flag=1&keyword={}'ua = UserAgent(verify_ssl=False)for i in range(1, 100):self.headers = {'User-Agent': ua.random}def get_html(self,url):response=requests.get(url,headers=self.headers)html=response.json()#html=response.content.decode('unicode_escape')return htmldef parse_html(self,html):for data in html:shopname=data['shopname']shopaddress=data['shopaddress']opentime=data['opentime']tel=data['tel']#print(shopname,opentime,shopaddress,tel)with open('F:/pycharm文件/document/data.csv', 'a', newline='') as f:csvwriter = csv.writer(f, delimiter=',')csvwriter.writerow([shopname,opentime,shopaddress,tel])def main(self):address=str(input('请输入要查询的城市:'))url=self.url.format(address)html=self.get_html(url)self.parse_html(html)
if __name__ == '__main__':spider = MUJI()spider.main()

声明:仅做自己学习参考使用。

这篇关于爬虫项目实战五:爬取无印良品的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/675610

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

如何用Docker运行Django项目

本章教程,介绍如何用Docker创建一个Django,并运行能够访问。 一、拉取镜像 这里我们使用python3.11版本的docker镜像 docker pull python:3.11 二、运行容器 这里我们将容器内部的8080端口,映射到宿主机的80端口上。 docker run -itd --name python311 -p

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

在cscode中通过maven创建java项目

在cscode中创建java项目 可以通过博客完成maven的导入 建立maven项目 使用快捷键 Ctrl + Shift + P 建立一个 Maven 项目 1 Ctrl + Shift + P 打开输入框2 输入 "> java create"3 选择 maven4 选择 No Archetype5 输入 域名6 输入项目名称7 建立一个文件目录存放项目,文件名一般为项目名8 确定

滚雪球学Java(87):Java事务处理:JDBC的ACID属性与实战技巧!真有两下子!

咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE啦,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好习惯,别被干货淹没了哦~ 🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,助你一臂之力,带你早日登顶🚀,欢迎大家关注&&收藏!持续更新中,up!up!up!! 环境说明:Windows 10

Vue3项目开发——新闻发布管理系统(六)

文章目录 八、首页设计开发1、页面设计2、登录访问拦截实现3、用户基本信息显示①封装用户基本信息获取接口②用户基本信息存储③用户基本信息调用④用户基本信息动态渲染 4、退出功能实现①注册点击事件②添加退出功能③数据清理 5、代码下载 八、首页设计开发 登录成功后,系统就进入了首页。接下来,也就进行首页的开发了。 1、页面设计 系统页面主要分为三部分,左侧为系统的菜单栏,右侧

SpringBoot项目是如何启动

启动步骤 概念 运行main方法,初始化SpringApplication 从spring.factories读取listener ApplicationContentInitializer运行run方法读取环境变量,配置信息创建SpringApplication上下文预初始化上下文,将启动类作为配置类进行读取调用 refresh 加载 IOC容器,加载所有的自动配置类,创建容器在这个过程

Maven创建项目中的groupId, artifactId, 和 version的意思

文章目录 groupIdartifactIdversionname groupId 定义:groupId 是 Maven 项目坐标的第一个部分,它通常表示项目的组织或公司的域名反转写法。例如,如果你为公司 example.com 开发软件,groupId 可能是 com.example。作用:groupId 被用来组织和分组相关的 Maven artifacts,这样可以避免