php爬虫严选,续爬取严选文胸数据之后,我深夜爬取了男性内裤数据,结果……...

2023-10-11 17:30

本文主要是介绍php爬虫严选,续爬取严选文胸数据之后,我深夜爬取了男性内裤数据,结果……...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这不马上就响应大家的号召,通过爬取网易严选的评论数据来给大家分析分析,看看有什么发现。

爬取数据

首先,我们在网易严选的搜索框输入关键词“男士内裤”,页面搜索出来男士内裤的产品列表界面:

201353726_2_20200905083827912搜索结果

我们点开第一个商品,点击“评论”,就可以看到如下信息:

201353726_3_2020090508382837评论信息

我们分析请求列表,就可以很容易地发现评论数据是通过 https://you.163.com/xhr/comment/listByItemByTag.json 这个请求来获取的。然后我们过滤请求参数,去掉不是必传的参数,最终发现 itemId 和 page 两个参数是必须的。

itemId 是指商品的ID,page 就是指的请求的页码,默认每页记录数是40。所以我们要获取评论数据的前提是获取到对应的商品ID。

我们是从搜索页面点击产品进入商品详情页的,所以搜索页面的商品列表里面肯定存在每一个商品的商品ID,我们回到搜索产品列表页,寻找搜索商品的请求:

201353726_4_20200905083828130商品列表

同样的,我们在搜索界面的请求分析中,找到了 http://you.163.com/xhr/search/search.json 这个请求,逐个分析请求参数后发现,我们只需要 keyword 和 page 两个参数即可。

请求分析完成后,我们就可以来码代码了。代码如下:# 获取商品列表def search_keyword(keyword):uri = 'https://you.163.com/xhr/search/search.json'query = {'keyword': keyword,'page': 1}try:res = requests.get(uri, params=query).json()result = res['data']['directly']['searcherResult']['result']product_id = []for r in result:product_id.append(r['id'])return product_idexcept:raise# 获取评论def details(product_id):url = 'https://you.163.com/xhr/comment/listByItemByTag.json'try:C_list = []for i in range(1, 100):query = {'itemId': product_id,'page': i,}res = requests.get(url, params=query).json()if not res['data']['commentList']:breakprint('爬取第 %s 页评论' % i)commentList = res['data']['commentList']C_list.extend(commentList)time.sleep(1)return C_listexcept:raiseproduct_id = search_keyword('男士内裤')r_list = []for p in product_id:r_list.extend(details(p))with open('./briefs.txt', 'w') as f:for r in r_list:try:f.write(json.dumps(r, ensure_ascii=False) '\n')except:print('出错啦')

为了简单起见,我抓取了首页的40件商品的评论数,将结果保存在 briefs.txt 文件中。文件数据的预览如下:

201353726_5_20200905083828255存储数据

分析数据

抓取完数据后,我们就可以进入探索环节了,我想从颜色、尺码、评论三个角度分析数据,看看男士们内裤的一些“特点”。

我们来看看数据结构的特点:{  'skuInfo': [    '颜色:黑色',    '尺码:M'  ],  'frontUserName': 'S****、',  'frontUserAvatar': 'https://yanxuan.nosdn.127.net/0da37937c896cac1955bda8522d5754f.jpg',  'content': '非常好',  'createTime': 1592965119969,  'picList': [],  'commentReplyVO': null,  'memberLevel': 5,  'appendCommentVO': null,  'star': 5,  'itemId': 3544005}

仔细观察这条评论数据,我们可以看到颜色和尺码都放在 skuInfo 这个数组里面,评论是放在 content 字段里面。同时,我们多翻一些数据就可以发现,颜色有好几种格式:单条装的颜色,例如:颜色:浅麻灰

多条装的颜色,例如:颜色:(黑色 麻灰 浅麻灰)3条

自选多条的颜色,例如:颜色:黑色 藏青色

其他,例如:规格:5条装

这里,最后一种无法分辨出颜色,我准备过滤掉。其他几种,去除掉干扰,通过“ ”就可以拆分出颜色来。

而尺码数据格式是统一的,可以直接获取。

我将颜色和尺码都做成柱状图来展示,而评论就用词云来展示。最终的效果图如下:

201353726_6_20200905083828365颜色分布

颜色并没有出乎我的意料,黑色遥遥领先,不过,如果把几种灰色加起来的话,可能超过了黑色。总之,黑色和灰色是大众的选择。

201353726_7_20200905083828537尺寸分布

尺寸嘛,前三名是XL、L和XXL,不过XL和L相差不大。

201353726_8_20200905083828646评论词云

从评论可以看出,不论是男性还是女性,对于内衣的选择,舒适度永远是第一的,质量其次。想想也是的,质量再好,穿着不舒服,是有点淡淡的忧伤~

总结

网易严选的受众群体是35岁以下的青年人,这个数据分析的结果也可以反应这个年龄群体的普遍选择。所以,广大男青年们,在你们嘲笑女性尺码多数是13的同时,不要忘了人还没到中年,腰包没鼓起来,腰带已经鼓起来了。多运动多注重身体管理吧!

这篇关于php爬虫严选,续爬取严选文胸数据之后,我深夜爬取了男性内裤数据,结果……...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/189676

相关文章

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

Python给Excel写入数据的四种方法小结

《Python给Excel写入数据的四种方法小结》本文主要介绍了Python给Excel写入数据的四种方法小结,包含openpyxl库、xlsxwriter库、pandas库和win32com库,具有... 目录1. 使用 openpyxl 库2. 使用 xlsxwriter 库3. 使用 pandas 库

SpringBoot定制JSON响应数据的实现

《SpringBoot定制JSON响应数据的实现》本文主要介绍了SpringBoot定制JSON响应数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录前言一、如何使用@jsonView这个注解?二、应用场景三、实战案例注解方式编程方式总结 前言

使用Python在Excel中创建和取消数据分组

《使用Python在Excel中创建和取消数据分组》Excel中的分组是一种通过添加层级结构将相邻行或列组织在一起的功能,当分组完成后,用户可以通过折叠或展开数据组来简化数据视图,这篇博客将介绍如何使... 目录引言使用工具python在Excel中创建行和列分组Python在Excel中创建嵌套分组Pyt

在Rust中要用Struct和Enum组织数据的原因解析

《在Rust中要用Struct和Enum组织数据的原因解析》在Rust中,Struct和Enum是组织数据的核心工具,Struct用于将相关字段封装为单一实体,便于管理和扩展,Enum用于明确定义所有... 目录为什么在Rust中要用Struct和Enum组织数据?一、使用struct组织数据:将相关字段绑

在Mysql环境下对数据进行增删改查的操作方法

《在Mysql环境下对数据进行增删改查的操作方法》本文介绍了在MySQL环境下对数据进行增删改查的基本操作,包括插入数据、修改数据、删除数据、数据查询(基本查询、连接查询、聚合函数查询、子查询)等,并... 目录一、插入数据:二、修改数据:三、删除数据:1、delete from 表名;2、truncate

Java实现Elasticsearch查询当前索引全部数据的完整代码

《Java实现Elasticsearch查询当前索引全部数据的完整代码》:本文主要介绍如何在Java中实现查询Elasticsearch索引中指定条件下的全部数据,通过设置滚动查询参数(scrol... 目录需求背景通常情况Java 实现查询 Elasticsearch 全部数据写在最后需求背景通常情况下

Java中注解与元数据示例详解

《Java中注解与元数据示例详解》Java注解和元数据是编程中重要的概念,用于描述程序元素的属性和用途,:本文主要介绍Java中注解与元数据的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参... 目录一、引言二、元数据的概念2.1 定义2.2 作用三、Java 注解的基础3.1 注解的定义3.2 内

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据