爬虫-电影影评爬取

2024-06-13 00:52

文章标签 爬虫爬取电影影评

本文主要是介绍爬虫-电影影评爬取，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

先上代码

import requests
import timeheaders = {"referer": "http://movie.mtime.com/","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36"
}
for i in range(1, 6):params = {'tt': "{}".format(int(time.time() * 1000)),'movieId': '251525','pageIndex': i,'pageSize': '20','orderType': '1'}url = "http://front-gateway.mtime.com/library/movie/comment.api"result = requests.get(url, headers=headers, params=params)comments = result.json()['data']['list']for comment in comments:user = comment['nickname']content = comment["content"]print("用户：%s" % user)print("评论：%s" % content)time.sleep(1)

这里面有几个部分需要做下说明：

以哪吒之魔童降世来说，进入此网页，打开开发者模式，点击Network->XHR,因为我们找的是评论，其英文是comment,如下我们找到了。

1.headers,它的来源是哪呢？

点击其头headers,拉到最下面，找到了Referer以及User-Agent，此值直接获取，（上面代码中的user-agent以自己电脑为准）。

2.params中的值。

同样是来源于headers中，有个Request URL，它的值是

http://front-gateway.mtime.com/library/movie/comment.api?tt=1718197021078&movieId=251525&pageIndex=1&pageSize=20&orderType=2

我们知道链接中?后面的参数为查询参数，requests.get() 方法提供了 params 参数，能让我们以字典的形式传递链接的查询参数，那几个字段的意义如下：

movieId ：电影在时光网中的ID

pageIndex ：评论的第x页

pageSize ：每页评论数

orderType ：字面意思是排序方式，而我们发现，短影评页的右上方的确是有这个选项的。值为 1 代表的应该就是按最热排序

tt：时间戳

3.result.json()

result我们知道是获取出来的结果，但是.json的意义是什么？我们需要json是什么

json：（JavaScript Object Notation）是一种轻量级的数据交换格式；构建于两种结构：键值对的集合和值的有序列表，分别对应python中字典和列表。其本质是字符串，只是该字符串符合特定的格式要求。

4.time.sleep(1) 此处是为了让爬虫慢一点，防止被封

这篇关于爬虫-电影影评爬取的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1055828。 23002807@qq.com

相关文章

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

阅读更多...

Python3 BeautifulSoup爬虫 POJ自动提交

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

阅读更多...

Python：豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣，数据处理过程，数据分析，可视化，以及完整PPT报告】

Python：豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣，数据处理过程，数据分析，可视化，以及完整PPT报告】

**爬取豆瓣电影信息，分析近年电影行业的发展情况** 本文是完整的数据分析展现，代码有完整版，包含豆瓣电影爬取的具体方式【附带爬虫豆瓣，数据处理过程，数据分析，可视化，以及完整PPT报告】最近MBA在学习《商业数据分析》，大实训作业给了数据要进行数据分析，所以先拿豆瓣电影练练手，网络上爬取豆瓣电影TOP250较多，但对于豆瓣电影全数据的爬取教程很少，所以我自己做一版。目

阅读更多...

Golang 网络爬虫框架gocolly/colly（五）

Golang 网络爬虫框架gocolly/colly（五）

gcocolly+goquery可以非常好地抓取HTML页面中的数据，但碰到页面是由Javascript动态生成时，用goquery就显得捉襟见肘了。解决方法有很多种：一，最笨拙但有效的方法是字符串处理，go语言string底层对应字节数组，复制任何长度的字符串的开销都很低廉，搜索性能比较高；二，利用正则表达式，要提取的数据往往有明显的特征，所以正则表达式写起来比较简单，不必非常严谨；三，使

阅读更多...

Golang网络爬虫框架gocolly/colly（四）

Golang网络爬虫框架gocolly/colly（四）

爬虫靠演技，表演得越像浏览器，抓取数据越容易，这是我多年爬虫经验的感悟。回顾下个人的爬虫经历，共分三个阶段：第一阶段，09年左右开始接触爬虫，那时由于项目需要，要访问各大国际社交网站，Facebook，myspace，filcker，youtube等等，国际上叫得上名字的社交网站都爬过，大部分网站提供restful api，有些功能没有api，就只能用http抓包工具分析协议，自己爬；国内的优酷、

阅读更多...

Golang网络爬虫框架gocolly/colly（三）

Golang网络爬虫框架gocolly/colly（三）

熟悉了《Golang 网络爬虫框架gocolly/colly 一》和《Golang 网络爬虫框架gocolly/colly 二》之后就可以在网络上爬取大部分数据了。本文接下来将爬取中证指数有限公司提供的行业市盈率。（http://www.csindex.com.cn/zh-CN/downloads/industry-price-earnings-ratio）定义数据结构体： type Zhj

阅读更多...

014.Python爬虫系列_解析练习

014.Python爬虫系列_解析练习

我的个人主页：👉👉 失心疯的个人主页 👈👈 入门教程推荐：👉👉 Python零基础入门教程合集 👈👈 虚拟环境搭建：👉👉 Python项目虚拟环境(超详细讲解) 👈👈 PyQt5 系列教程：👉👉 Python GUI(PyQt5)文章合集 👈👈 Oracle数据库教程：👉👉 Oracle数据库文章合集 👈👈 优

阅读更多...

urllib与requests爬虫简介

urllib与requests爬虫简介

urllib与requests爬虫简介 – 潘登同学的爬虫笔记文章目录 urllib与requests爬虫简介 -- 潘登同学的爬虫笔记第一个爬虫程序 urllib的基本使用Request对象的使用urllib发送get请求实战-喜马拉雅网站 urllib发送post请求动态页面获取数据请求 SSL证书验证伪装自己的爬虫-请求头 urllib的底层原理伪装自己的爬虫-设置代理爬虫coo

阅读更多...

Python 爬虫入门 - 基础数据采集

Python 爬虫入门 - 基础数据采集

Python网络爬虫是一种强大且灵活的工具，用于从互联网上自动化地获取和处理数据。无论你是数据科学家、市场分析师，还是一个想要深入了解互联网数据的开发者，掌握网络爬虫技术都将为你打开一扇通向丰富数据资源的大门。在本教程中，我们将从基本概念入手，逐步深入了解如何构建和优化网络爬虫，涵盖从发送请求、解析网页结构到保存数据的全过程，并讨论如何应对常见的反爬虫机制。通过本教程，你将能够构建有效的网络爬

阅读更多...

0基础学习爬虫系列：网页内容爬取

0基础学习爬虫系列：网页内容爬取

1.背景今天我们来实现，监控网站最新数据爬虫。在信息爆炸的年代，能够有一个爬虫帮你，将你感兴趣的最新消息推送给你，能够帮你节约非常多时间，同时确保不会miss重要信息。爬虫应用场景：应用场景主要功能数据来源示例使用目的搜索引擎优化 (SEO)分析关键词密度、外部链接质量等网站元数据、链接提升网站在搜索引擎中的排名市场研究收集竞品信息、价格比较电商网站、行业报告制定更有效的市场策略舆情

阅读更多...