php爬虫严选,续爬取严选文胸数据之后，我深夜爬取了男性内裤数据，结果……...

本文主要是介绍php爬虫严选,续爬取严选文胸数据之后，我深夜爬取了男性内裤数据，结果……...，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

这不马上就响应大家的号召，通过爬取网易严选的评论数据来给大家分析分析，看看有什么发现。

爬取数据

首先，我们在网易严选的搜索框输入关键词“男士内裤”，页面搜索出来男士内裤的产品列表界面：

201353726_2_20200905083827912 搜索结果

我们点开第一个商品，点击“评论”，就可以看到如下信息：

201353726_3_2020090508382837 评论信息

我们分析请求列表，就可以很容易地发现评论数据是通过 https://you.163.com/xhr/comment/listByItemByTag.json 这个请求来获取的。然后我们过滤请求参数，去掉不是必传的参数，最终发现 itemId 和 page 两个参数是必须的。

itemId 是指商品的ID，page 就是指的请求的页码，默认每页记录数是40。所以我们要获取评论数据的前提是获取到对应的商品ID。

我们是从搜索页面点击产品进入商品详情页的，所以搜索页面的商品列表里面肯定存在每一个商品的商品ID，我们回到搜索产品列表页，寻找搜索商品的请求：

201353726_4_20200905083828130 商品列表

同样的，我们在搜索界面的请求分析中，找到了 http://you.163.com/xhr/search/search.json 这个请求，逐个分析请求参数后发现，我们只需要 keyword 和 page 两个参数即可。

请求分析完成后，我们就可以来码代码了。代码如下：# 获取商品列表def search_keyword(keyword):uri = 'https://you.163.com/xhr/search/search.json'query = {'keyword': keyword,'page': 1}try:res = requests.get(uri, params=query).json()result = res['data']['directly']['searcherResult']['result']product_id = []for r in result:product_id.append(r['id'])return product_idexcept:raise# 获取评论def details(product_id):url = 'https://you.163.com/xhr/comment/listByItemByTag.json'try:C_list = []for i in range(1, 100):query = {'itemId': product_id,'page': i,}res = requests.get(url, params=query).json()if not res['data']['commentList']:breakprint('爬取第 %s 页评论' % i)commentList = res['data']['commentList']C_list.extend(commentList)time.sleep(1)return C_listexcept:raiseproduct_id = search_keyword('男士内裤')r_list = []for p in product_id:r_list.extend(details(p))with open('./briefs.txt', 'w') as f:for r in r_list:try:f.write(json.dumps(r, ensure_ascii=False) '\n')except:print('出错啦')

为了简单起见，我抓取了首页的40件商品的评论数，将结果保存在 briefs.txt 文件中。文件数据的预览如下：

201353726_5_20200905083828255 存储数据

分析数据

抓取完数据后，我们就可以进入探索环节了，我想从颜色、尺码、评论三个角度分析数据，看看男士们内裤的一些“特点”。

我们来看看数据结构的特点：{ 'skuInfo': [ '颜色:黑色', '尺码:M' ], 'frontUserName': 'S****、', 'frontUserAvatar': 'https://yanxuan.nosdn.127.net/0da37937c896cac1955bda8522d5754f.jpg', 'content': '非常好', 'createTime': 1592965119969, 'picList': [], 'commentReplyVO': null, 'memberLevel': 5, 'appendCommentVO': null, 'star': 5, 'itemId': 3544005}

仔细观察这条评论数据，我们可以看到颜色和尺码都放在 skuInfo 这个数组里面，评论是放在 content 字段里面。同时，我们多翻一些数据就可以发现，颜色有好几种格式：单条装的颜色，例如：颜色:浅麻灰

多条装的颜色，例如：颜色:(黑色麻灰浅麻灰)3条

自选多条的颜色，例如：颜色:黑色藏青色

其他，例如：规格:5条装

这里，最后一种无法分辨出颜色，我准备过滤掉。其他几种，去除掉干扰，通过“ ”就可以拆分出颜色来。

而尺码数据格式是统一的，可以直接获取。

我将颜色和尺码都做成柱状图来展示，而评论就用词云来展示。最终的效果图如下：

201353726_6_20200905083828365 颜色分布