python爬虫实战---猫眼电影:西虹市首富的评论抓取

2024-02-08 12:50

本文主要是介绍python爬虫实战---猫眼电影:西虹市首富的评论抓取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文旨在抓取电影的评论,包括电影评论者的昵称、来自的城市、评论内容、评分以及评论的时间,并将这些内容抓取下来保存到txt文本里面,并对其中的评论内容去重,并生成词云。

导入库

from urllib.error import HTTPError,URLError---异常处理
from collections import defaultdict---创建列表
from wordcloud import WordCloud---词云的创建
import json---数据处理
import requests---抓取网页
import time---休眠
from os import path---找出项目的路径
from PIL import Image---导入要生成词云的图片
import numpy as np---数据转换
import jieba---分词分割

爬取的网页

 从网页源码中看到这些评论的数据并没有出现,也仅仅是看到10条评论信息,其他的看不多,这是猫眼电影的一大反爬防护,通过netword去分析也没有找到,最终通过切换为移动端去查看网页才发现了数据的接口,只要把数据的接口给下载了,再去解析 接口文件里面的数据就可以找到我们想要的数据了。

可以发现每次加载评论数据的时候都会出现一个json接口,http://m.maoyan.com/mmdb/comments/movie/1212592.json?_v_=yes&offset=0&startTime=0 (第一次评论数据加载),且最多加载到1000页。每次只需要替换offset参数的值即可得到下一页的评论数据

开始提取数据

利用requests库的get方法来下载数据

# 打开网页
def open_network(tomato_url):# 设置请求头,防止无法爬取下去(可以查看自己的浏览器里面的请求头)headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',}try:# get方法下载数据html=requests.get(tomato_url,headers=headers)except (HTTPError,URLError) as hu:print(hu)return Noneelse:return html.content# 获取网页的内容
def get_page_content(tomato_url,cmts):message=[]time.sleep(1)html_content=open_network(tomato_url)if html_content != None:html_content=html_content.decode('utf-8')# 转换为Python能处理的数据jsonObj=json.loads(html_content)if cmts in jsonObj:# 评论信息主要存在key为cmts的键里面data_cmts=jsonObj[cmts]for data_cmt in data_cmts:try:# 数据添加到一个列表中message.append({# 昵称、城市、评论内容、评分、日期'nickName':data_cmt['nickName'],'city':data_cmt['cityName'],'content':data_cmt['content'],'star':data_cmt['score'],'date':data_cmt['time']})except KeyError as ke:print(ke)continueelse:print('不存在这个key')return message

数据存储

写进txt文件里面,在打开一个文件时,需要设置好编码格式防止乱码。

# 热评写进txt文件
def create_content_txt(datas,fileName,i=0):with open('评论文件/西虹市首富'+fileName+str(i)+'.txt','w',encoding='utf-8')as f:for data in datas:if '\n' in data['content']:data['content']=data['content'].replace('\n','')f.write('昵称:'+data['nickName']+',城市:'+data['city']+',评论:'+data['content']+',星级:'+str(data['star'])+',日期:'+str(data['date'])+'\n')print('文件'+str(i)+'写入成功!')

评论内容去重并存储

由于评论的内容存在重复性,所以把重复的内容去除,并把新的评论内容存储到txt文件里面去,方便给词云生成提供数据。利用set集合的无重复性,每次把数据存到有del_datas=set()的全局变量里面去,可以实现去重

# 评论去重
def delete_data(datas):global del_datasfor data in datas:del_datas.add(data['content'])

词云生成

# 生成词云
def create_wordCloud():# 该程序的路径d=path.dirname(__file__)# 读取词云文件的内容text=open(path.join(d,'wordcloud.txt'),encoding='utf-8').read()# 进行分词text=jieba.cut(text)text=''.join(text)# 将PIL image图片转化为数组tomato=np.array(Image.open(path.join(d,'xin.png')))# 指定中文字体文件的路径、背景颜色、图片的宽高、最大词云数目、指定生成形状wc = WordCloud(font_path="C:/Windows/Fonts/simsun.ttc",background_color="white",width=627,height=834, max_words=2000, mask=tomato)# 生成词云wc.generate(text)#保存到本地wc.to_file(path.join(d, "shen_teng.png"))

程序入口

# 数据写进多个文件中
def write_data():i=0global cmtswhile i<=1000:data_cmts=get_page_content('http://m.maoyan.com/mmdb/comments/movie/1212592.json?_v_=yes&offset='+str(i)+'&startTime=0','cmts')# 文件写入create_content_txt(data_cmts,'短评',i)# 去重delete_data(data_cmts)i+=1# 去重写进文件,用于生成词云with open('wordcloud.txt','w',encoding='utf-8')as f:for del_data in del_datas:f.write(del_data+'\n')# 词云create_wordCloud()

 

效果

源码链接:https://pan.baidu.com/s/1xwxzehI4CzeMcL-YiKXFxg 密码:qcdl

这篇关于python爬虫实战---猫眼电影:西虹市首富的评论抓取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/691093

相关文章

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

python 字典d[k]中key不存在的解决方案

《python字典d[k]中key不存在的解决方案》本文主要介绍了在Python中处理字典键不存在时获取默认值的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录defaultdict:处理找不到的键的一个选择特殊方法__missing__有时候为了方便起见,

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

使用Python绘制可爱的招财猫

《使用Python绘制可爱的招财猫》招财猫,也被称为“幸运猫”,是一种象征财富和好运的吉祥物,经常出现在亚洲文化的商店、餐厅和家庭中,今天,我将带你用Python和matplotlib库从零开始绘制一... 目录1. 为什么选择用 python 绘制?2. 绘图的基本概念3. 实现代码解析3.1 设置绘图画

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

python实现自动登录12306自动抢票功能

《python实现自动登录12306自动抢票功能》随着互联网技术的发展,越来越多的人选择通过网络平台购票,特别是在中国,12306作为官方火车票预订平台,承担了巨大的访问量,对于热门线路或者节假日出行... 目录一、遇到的问题?二、改进三、进阶–展望总结一、遇到的问题?1.url-正确的表头:就是首先ur