mysql开源内库_为妹子打抱不平,我深夜爬取了严选的男性内裤数据,结果……...

本文主要是介绍mysql开源内库_为妹子打抱不平,我深夜爬取了严选的男性内裤数据,结果……...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上一篇文章通过爬取网易严选的评论数据来探究妹子们的内衣尺码、颜色偏好以及对内衣的评价,通过大家的反响发现好像无意中得罪了某类群体,又满足了某类群体的某种特殊癖好。作为无意的举动,作者深感愧疚。为了为妹子打抱不平,工作加班到深夜之后,我毅然牺牲睡觉时间,来爬取网易的男性内裤数据,看看有什么发现。

爬取数据

首先,我们在网易严选的搜索框输入关键词“男士内裤”,页面搜索出来男士内裤的产品列表界面:

d5bf86ab8aa02c82e18751faae748433.png

搜索结果

我们点开第一个商品,点击“评论”,就可以看到如下信息:

35ce6ed6153761ce892c7d7bad8fab6e.png

评论信息

我们分析请求列表,就可以很容易地发现评论数据是通过 https://you.163.com/xhr/comment/listByItemByTag.json 这个请求来获取的。然后我们过滤请求参数,去掉不是必传的参数,最终发现 itemId 和 page 两个参数是必须的。

itemId 是指商品的ID,page 就是指的请求的页码,默认每页记录数是40。所以我们要获取评论数据的前提是获取到对应的商品ID。

我们是从搜索页面点击产品进入商品详情页的,所以搜索页面的商品列表里面肯定存在每一个商品的商品ID,我们回到搜索产品列表页,寻找搜索商品的请求:

cb1eaf83d69a81ffc3a04478966626ff.png

商品列表

同样的,我们在搜索界面的请求分析中,找到了 http://you.163.com/xhr/search/search.json 这个请求,逐个分析请求参数后发现,我们只需要 keyword 和 page 两个参数即可。

请求分析完成后,我们就可以来码代码了。代码如下:

# 获取商品列表def search_keyword(keyword):uri = 'https://you.163.com/xhr/search/search.json'query = {"keyword": keyword,"page": 1}try:res = requests.get(uri, params=query).json()result = res['data']['directly']['searcherResult']['result']product_id = []for r in result:product_id.append(r['id'])return product_idexcept:raise# 获取评论def details(product_id):url = 'https://you.163.com/xhr/comment/listByItemByTag.json'try:C_list = []for i in range(1, 100):query = {"itemId": product_id,"page": i,}res = requests.get(url, params=query).json()if not res['data']['commentList']:breakprint("爬取第 %s 页评论" % i)commentList = res['data']['commentList']C_list.extend(commentList)time.sleep(1)return C_listexcept:raiseproduct_id = search_keyword('男士内裤')r_list = []for p in product_id:r_list.extend(details(p))with open('./briefs.txt', 'w') as f:for r in r_list:try:f.write(json.dumps(r, ensure_ascii=False) + '\n')except:print('出错啦')

为了简单起见,我抓取了首页的40件商品的评论数,将结果保存在 briefs.txt 文件中。文件数据的预览如下:

54eaf08724cc42344b95d89c29a2264b.png

存储数据

分析数据

抓取完数据后,我们就可以进入探索环节了,我想从颜色、尺码、评论三个角度分析数据,看看男士们内裤的一些“特点”。

我们来看看数据结构的特点:

{"skuInfo": ["颜色:黑色","尺码:M"],"frontUserName": "S****、","frontUserAvatar": "https://yanxuan.nosdn.127.net/0da37937c896cac1955bda8522d5754f.jpg","content": "非常好","createTime": 1592965119969,"picList": [],"commentReplyVO": null,"memberLevel": 5,"appendCommentVO": null,"star": 5,"itemId": 3544005}

仔细观察这条评论数据,我们可以看到颜色和尺码都放在 skuInfo 这个数组里面,评论是放在 content 字段里面。同时,我们多翻一些数据就可以发现,颜色有好几种格式:

单条装的颜色,例如:颜色:浅麻灰

多条装的颜色,例如:颜色:(黑色+麻灰+浅麻灰)3条

自选多条的颜色,例如:颜色:黑色+藏青色

其他,例如:规格:5条装

这里,最后一种无法分辨出颜色,我准备过滤掉。其他几种,去除掉干扰,通过“+”就可以拆分出颜色来。

而尺码数据格式是统一的,可以直接获取。

我将颜色和尺码都做成柱状图来展示,而评论就用词云来展示。最终的效果图如下:

f759c70511fe5ad17c94a6e21476935d.png

颜色分布

颜色并没有出乎我的意料,黑色遥遥领先,不过,如果把几种灰色加起来的话,可能超过了黑色。总之,黑色和灰色是大众的选择。

22066050c96059432b1e8bf7d98b5839.png

尺寸分布

尺寸嘛,前三名是XL、L和XXL,不过XL和L相差不大。

c7f42c91aa55f3724634c30f044c2228.png

评论词云

从评论可以看出,不论是男性还是女性,对于内衣的选择,舒适度永远是第一的,质量其次。想想也是的,质量再好,穿着不舒服,是有点淡淡的忧伤~

总结

网易严选的受众群体是35岁以下的青年人,这个数据分析的结果也可以反应这个年龄群体的普遍选择。所以,广大男青年们,在你们嘲笑女性尺码多数是13的同时,不要忘了人还没到中年,腰包没鼓起来,腰带已经鼓起来了。多运动多注重身体管理吧!

这篇关于mysql开源内库_为妹子打抱不平,我深夜爬取了严选的男性内裤数据,结果……...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/189677

相关文章

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

MySQL的JDBC编程详解

《MySQL的JDBC编程详解》:本文主要介绍MySQL的JDBC编程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言一、前置知识1. 引入依赖2. 认识 url二、JDBC 操作流程1. JDBC 的写操作2. JDBC 的读操作总结前言本文介绍了mysq

java.sql.SQLTransientConnectionException连接超时异常原因及解决方案

《java.sql.SQLTransientConnectionException连接超时异常原因及解决方案》:本文主要介绍java.sql.SQLTransientConnectionExcep... 目录一、引言二、异常信息分析三、可能的原因3.1 连接池配置不合理3.2 数据库负载过高3.3 连接泄漏

Linux下MySQL数据库定时备份脚本与Crontab配置教学

《Linux下MySQL数据库定时备份脚本与Crontab配置教学》在生产环境中,数据库是核心资产之一,定期备份数据库可以有效防止意外数据丢失,本文将分享一份MySQL定时备份脚本,并讲解如何通过cr... 目录备份脚本详解脚本功能说明授权与可执行权限使用 Crontab 定时执行编辑 Crontab添加定

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

MySQL中On duplicate key update的实现示例

《MySQL中Onduplicatekeyupdate的实现示例》ONDUPLICATEKEYUPDATE是一种MySQL的语法,它在插入新数据时,如果遇到唯一键冲突,则会执行更新操作,而不是抛... 目录1/ ON DUPLICATE KEY UPDATE的简介2/ ON DUPLICATE KEY UP

MySQL分库分表的实践示例

《MySQL分库分表的实践示例》MySQL分库分表适用于数据量大或并发压力高的场景,核心技术包括水平/垂直分片和分库,需应对分布式事务、跨库查询等挑战,通过中间件和解决方案实现,最佳实践为合理策略、备... 目录一、分库分表的触发条件1.1 数据量阈值1.2 并发压力二、分库分表的核心技术模块2.1 水平分

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映