天猫评论爬取系列之Bra特别篇

2023-10-29 10:40

本文主要是介绍天猫评论爬取系列之Bra特别篇,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

天猫评论爬取系列之Bra特别篇(钢铁直男勿进)

封面图镇楼~

这里写图片描述

1 前言

1.1 目的

爬虫真是好玩:)
在一个阳光明媚的中午,刚吃完饭的我坐在电脑桌前,翻着手机,忽然看到这样一条微信公众号推送(图是后来截的):
这里写图片描述
嗯~ o( ̄▽ ̄)o,又可以涨知识了,开干吧(只看分析请跳到最后)。

1.2 相关工具

Chrome:抓包、浏览器
scrapy:爬虫框架
mysql:数据储存
WordCloud:词云工具
echarts:可视化工具


2 分析

2.1 思路分析

  1. 爬取评论信息
  2. 评论清洗入库
  3. 生成词云,查看关键词
  4. 生成可视化图表
  5. 数据分析

2.2 爬取评论信息&评论清洗入库

  • 首先Chrome打开商品页面,拖到底下评论区,可以看到评论选择有这几种:全部、追评、图片、有无内容、按默认、按时间等等,这个对下面参数理解有帮助。
    这里写图片描述
    这里写图片描述
  • 接着,打开Chrome的开发者工具(F12),进入Network页面,这时返回去刚刚评论,随便选择一个选项,比如默认是选择全部,我这里改成追评,这时可以看到Network底下加载了很多内容。
    这里写图片描述
  • 一般如果返回Json内容的话是在Network底下的XHR标签,不过天猫评论返回的是JS文件,因为这个涉及到浏览器的同源政策,有兴趣的小伙伴搜索同源和Jsonp相关关键词。好了,言归正传,点击JS标签,看到像https://rate.tmall.com......的内容了么,没有的话再点击一下页面的全部追评图片等等再看。
    这里写图片描述
  • 点击https://rate.tmall.com......,选择Response,可以看到我们要的结果就在这里:
    这里写图片描述
  • 点击Headers,开始分析参数吧:
    这里写图片描述
  • 可以看到是GET方法,Request URL这么长,第一次看到肯定会发懵吧,不过这里面的一些信息其实是可以剔除而不影响我们要的最终内容。比如ua,记录user-agent信息,可以去掉,另外,大部分没有值的代表这个值不传也可以获得我们要的信息,所以又可以省略掉,剩下几个有值的我们就要去猜它代表的意思了。
https://rate.tmall.com/list_detail_rate.htm?itemId=547746378793&spuId=687158212&sellerId=2917184910&order=3&currentPage=1&append=1&content=1&picture=0&needFold=0&_ksTS=1524225058166_2084&callback=jsonp2085

itemIdspuIdsellerId:商品本身的信息;
order:3代表按默认,1代表按时间;
currentPage:评论当前页(1-99);
append:1代表追评,0代表无追评;
content:1代表有内容,0代表无内容;
picture:1代表有图,0代表无图;
needFold:1代表有折叠,0代表无折叠(折叠代表内容看上去没什么意义那种,比如啊啊啊啊啊,啦啦啦啦啦这种);
_ksTS:代表当前时间;
callback:代表返回的函数名(jsonp),支持自定义;

  • 构造_ksTS的函数如下:
    

这篇关于天猫评论爬取系列之Bra特别篇的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/SCUTJcfeng/article/details/80016880
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/300082

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

flume系列之:查看flume系统日志、查看统计flume日志类型、查看flume日志

遍历指定目录下多个文件查找指定内容 服务器系统日志会记录flume相关日志 cat /var/log/messages |grep -i oom 查找系统日志中关于flume的指定日志 import osdef search_string_in_files(directory, search_string):count = 0

GPT系列之:GPT-1,GPT-2,GPT-3详细解读

一、GPT1 论文:Improving Language Understanding by Generative Pre-Training 链接:https://cdn.openai.com/research-covers/languageunsupervised/language_understanding_paper.pdf 启发点:生成loss和微调loss同时作用,让下游任务来适应预训

Java基础回顾系列-第七天-高级编程之IO

Java基础回顾系列-第七天-高级编程之IO 文件操作字节流与字符流OutputStream字节输出流FileOutputStream InputStream字节输入流FileInputStream Writer字符输出流FileWriter Reader字符输入流字节流与字符流的区别转换流InputStreamReaderOutputStreamWriter 文件复制 字符编码内存操作流(

Java基础回顾系列-第五天-高级编程之API类库

Java基础回顾系列-第五天-高级编程之API类库 Java基础类库StringBufferStringBuilderStringCharSequence接口AutoCloseable接口RuntimeSystemCleaner对象克隆 数字操作类Math数学计算类Random随机数生成类BigInteger/BigDecimal大数字操作类 日期操作类DateSimpleDateForma

Java基础回顾系列-第三天-Lambda表达式

Java基础回顾系列-第三天-Lambda表达式 Lambda表达式方法引用引用静态方法引用实例化对象的方法引用特定类型的方法引用构造方法 内建函数式接口Function基础接口DoubleToIntFunction 类型转换接口Consumer消费型函数式接口Supplier供给型函数式接口Predicate断言型函数式接口 Stream API 该篇博文需重点了解:内建函数式

Java基础回顾系列-第二天-面向对象编程

面向对象编程 Java类核心开发结构面向对象封装继承多态 抽象类abstract接口interface抽象类与接口的区别深入分析类与对象内存分析 继承extends重写(Override)与重载(Overload)重写(Override)重载(Overload)重写与重载之间的区别总结 this关键字static关键字static变量static方法static代码块 代码块String类特

Java基础回顾系列-第六天-Java集合

Java基础回顾系列-第六天-Java集合 集合概述数组的弊端集合框架的优点Java集合关系图集合框架体系图java.util.Collection接口 List集合java.util.List接口java.util.ArrayListjava.util.LinkedListjava.util.Vector Set集合java.util.Set接口java.util.HashSetjava