爬虫（八十一）用requests和xpath爬取豆瓣电影评论

2023-11-24 05:30

文章标签 爬虫评论爬取 xpath requests 电影八十一豆瓣

本文主要是介绍爬虫（八十一）用requests和xpath爬取豆瓣电影评论，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

这篇文章，我们继续利用 requests 和 xpath 爬取豆瓣电影的短评，下面还是先贴上效果图：

1、网页分析

（1）翻页

我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析，这里示例为《一出好戏》

和之前一样，我们可以通过构造 URL 获取全部网页的内容，但是这次我们尝试使用一种新的方法 —— 翻页

使用快捷键 Ctrl+Shift+I 打开开发者工具，然后使用快捷键 Ctrl+Shift+C 打开元素选择工具

此时用鼠标点击网页中的 后页，就会在源代码中自动定位到相应的位置

接下来我们用 xpath 匹配下一页的链接地址：

html.xpath('//div[@id="paginator"]/a[@class="next"]/@href')

这样一来，我们只要在每一页中通过循环不断获取下一页的内容即可

核心代码如下：

这篇关于爬虫（八十一）用requests和xpath爬取豆瓣电影评论的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/421316。 23002807@qq.com

相关文章

一文详解如何在Python中使用Requests库

一文详解如何在Python中使用Requests库

《一文详解如何在Python中使用Requests库》：本文主要介绍如何在Python中使用Requests库的相关资料,Requests库是Python中常用的第三方库,用于简化HTTP请求的发... 目录前言1. 安装Requests库2. 发起GET请求3. 发送带有查询参数的GET请求4. 发起PO

阅读更多...

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

阅读更多...

Python结合requests和Cheerio处理网页内容的操作步骤

Python结合requests和Cheerio处理网页内容的操作步骤

《Python结合requests和Cheerio处理网页内容的操作步骤》Python因其简洁明了的语法和强大的库支持,成为了编写爬虫程序的首选语言之一,requests库是Python中用于发送HT... 目录一、前言二、环境搭建三、requests库的基本使用四、Cheerio库的基本使用五、结合req

阅读更多...

Python 中 requests 与 aiohttp 在实际项目中的选择策略详解

Python 中 requests 与 aiohttp 在实际项目中的选择策略详解

《Python中requests与aiohttp在实际项目中的选择策略详解》本文主要介绍了Python爬虫开发中常用的两个库requests和aiohttp的使用方法及其区别,通过实际项目案... 目录一、requests 库二、aiohttp 库三、requests 和 aiohttp 的比较四、requ

阅读更多...

Python3 BeautifulSoup爬虫 POJ自动提交

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

阅读更多...

Python：豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣，数据处理过程，数据分析，可视化，以及完整PPT报告】

Python：豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣，数据处理过程，数据分析，可视化，以及完整PPT报告】

**爬取豆瓣电影信息，分析近年电影行业的发展情况** 本文是完整的数据分析展现，代码有完整版，包含豆瓣电影爬取的具体方式【附带爬虫豆瓣，数据处理过程，数据分析，可视化，以及完整PPT报告】最近MBA在学习《商业数据分析》，大实训作业给了数据要进行数据分析，所以先拿豆瓣电影练练手，网络上爬取豆瓣电影TOP250较多，但对于豆瓣电影全数据的爬取教程很少，所以我自己做一版。目

阅读更多...

Golang 网络爬虫框架gocolly/colly（五）

Golang 网络爬虫框架gocolly/colly（五）

gcocolly+goquery可以非常好地抓取HTML页面中的数据，但碰到页面是由Javascript动态生成时，用goquery就显得捉襟见肘了。解决方法有很多种：一，最笨拙但有效的方法是字符串处理，go语言string底层对应字节数组，复制任何长度的字符串的开销都很低廉，搜索性能比较高；二，利用正则表达式，要提取的数据往往有明显的特征，所以正则表达式写起来比较简单，不必非常严谨；三，使

阅读更多...

Golang网络爬虫框架gocolly/colly（四）

Golang网络爬虫框架gocolly/colly（四）

爬虫靠演技，表演得越像浏览器，抓取数据越容易，这是我多年爬虫经验的感悟。回顾下个人的爬虫经历，共分三个阶段：第一阶段，09年左右开始接触爬虫，那时由于项目需要，要访问各大国际社交网站，Facebook，myspace，filcker，youtube等等，国际上叫得上名字的社交网站都爬过，大部分网站提供restful api，有些功能没有api，就只能用http抓包工具分析协议，自己爬；国内的优酷、

阅读更多...

Golang网络爬虫框架gocolly/colly（三）

Golang网络爬虫框架gocolly/colly（三）

熟悉了《Golang 网络爬虫框架gocolly/colly 一》和《Golang 网络爬虫框架gocolly/colly 二》之后就可以在网络上爬取大部分数据了。本文接下来将爬取中证指数有限公司提供的行业市盈率。（http://www.csindex.com.cn/zh-CN/downloads/industry-price-earnings-ratio）定义数据结构体： type Zhj

阅读更多...

014.Python爬虫系列_解析练习

014.Python爬虫系列_解析练习

我的个人主页：👉👉 失心疯的个人主页 👈👈 入门教程推荐：👉👉 Python零基础入门教程合集 👈👈 虚拟环境搭建：👉👉 Python项目虚拟环境(超详细讲解) 👈👈 PyQt5 系列教程：👉👉 Python GUI(PyQt5)文章合集 👈👈 Oracle数据库教程：👉👉 Oracle数据库文章合集 👈👈 优

阅读更多...