Python实战:爬取小红书-采集笔记详情

2024-03-22 04:44

本文主要是介绍Python实战:爬取小红书-采集笔记详情,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上一篇文章发出后,有读者问能不能爬到小红书笔记详情数据,今天他来了。

一、先看效果

程序输入:在一个txt文件内粘贴要爬取的笔记链接,每行放1个链接。

程序输出:输出是一个所有笔记详情数据的excel表格,包含”采集日期、作者、笔记标题、发布日期、IP属地、点赞数、收藏数、评论数、笔记链接、作者链接、标签、笔记内容“这些字段,和网页端看到的数据一样。

保存的 excel 表如下:

采集到的全部标签如下:

采集到的全部笔记内容如下:

二、分析思路

由于小红书反爬机制很严格,很难批量获取小红书的大量数据。用爬虫去爬小红书数据,还有被小红书封号的风险。

但是我这个方法是纯模拟人的操作,以人的操作习惯去查看笔记和提取数据,不会触发小红书的反爬机制。

分析爬虫思路,概括如下:

1、登录小红书

2、从 txt 文件中读取所有笔记链接

3、逐条根据笔记链接打开小红书笔记详情页

4、提取笔记页面数据

5、处理获取到的数据,写入缓存

6、循环爬取所有笔记链接

7、保存缓存内的数据到本地 excel 文件

三、开始写代码

1、登录

使用 DrissionPage 库,打开小红书主页https://www.xiaohongshu.com,设置 20 秒延时,这时可以使用手机扫码登录账号。

from DrissionPage import ChromiumPage
def sign_in():sign_in_page = ChromiumPage()sign_in_page.get('https://www.xiaohongshu.com')print("请扫码登录")# 第一次运行需要扫码登录time.sleep(20)

只有第 1 次运行代码需要登录,浏览器会保存登录状态信息。第 2 次之后再运行代码,就免登录了,可以把 sign_in()步骤注释掉。

运行过我上一篇文章的代码,浏览器已经保存登录状态了,也可以直接注释掉登录步骤。

2、从txt文件中读取所有笔记链接

定义一个read_urls_from_txt(path)函数,函数的参数是 txt 文件路径,执行函数返回一个列表,包含所有 urls。

def read_urls_from_txt(path):with open(path, 'r') as file:urls = [line.strip() for line in file.readlines()]return urls

3、打开小红书笔记详情页

打开每个 url 的网页,可以看到浏览器已经加载出来笔记的信息了。

def open_url(url):global pagepage = ChromiumPage()# page.set.load_mode.eager()page.get(f'{url}')

4、提取页面数据

使用 DrissionPage 库定位元素方法,定位到包含笔记详情的 作者、标题、点赞 等信息。

例如,定义一个get_author_info(page)函数,提取作者信息,函数返回author_info字典,包含作者名字和作者主页链接。

def get_author_info(page):# 定位作者信息div_author = page.ele('.author-container', timeout=0)div_info = div_author.ele('.info', timeout=0)# 作者名字author_name = div_info.ele('.username', timeout=0).text# 作者主页链接author_link = div_info.eles('tag:a', timeout=0)[0].linkauthor_info = {'author_name': author_name, 'author_link': author_link}return author_info

类似的,定义get_note_content(page)函数提取笔记内容、标签、链接、发布日期、IP 属地数据,get_count(page)函数提取点赞、收藏、转发数据。

5、处理获取到的数据,写入缓存

今天使用一个新的库来保存数据——DataRecorder库,这个库也是由DrissionPage库同作者开源的。

在上一篇文章中,DrissionPage开源作者给我留言,我才发现这个库,用起来真方便。我还有缘加到了大佬的微信,太幸运了。

DataRecorder库是一个基于 python 的工具集,用于记录数据到文件。使用方便,代码简洁,是一个可靠、省心且实用的工具。

DataRecorder库目前在码云上 Star 数还不高,在这里推荐一下,非常适合配合爬虫使用。

from DataRecorder import Recorder
# 新建一个excel表格,用来保存数据
r = Recorder(path='采集输出-小红书笔记详情.xlsx', cache_size=20)
#数据写入缓存
new_note_contents_dict = {'采集日期': current_date, '作者': author_name, '笔记标题': note_title,'发布日期': date, 'IP属地': location, '点赞数': like_count,'收藏数': collect_count, '评论数': chat_count, '笔记链接': note_link,'作者链接': author_link, '标签': tags, '笔记内容': note_desc}
r.add_data(new_note_contents_dict)

6、循环爬取所有笔记链接

使用 tqdm库 显示爬取进度条,在循环体内,循环调用 get_note_page_info(note_url) 函数采集笔记页面信息。

for note_url in tqdm(note_urls):get_note_page_info(note_url)

其中 get_note_page_info(url) 函数如下,实现采集作者信息、笔记内容、点赞、收藏、评论数的功能。

def get_note_page_info(url):# 访问urlopen_url(url)# 提取作者信息author_info = get_author_info(page)# 提取笔记内容content = get_note_content(page)# 提取点赞、收藏、评论数count = get_count(page)note_contents = {'note_link': url, 'author_info': author_info, 'content': content, 'count': count}

Pycharm 控制台输出如下:

7、保存缓存内的数据到本地 excel 文件

使用 DataRecorder库 将数据保存到 excel 文件,用了这个库真的很省心。

from DataRecorder import Recorder
# 新建一个excel表格,用来保存数据
r = Recorder(path='采集输出-小红书笔记详情.xlsx', cache_size=20)
#数据写入缓存
r.add_data(new_note_contents_dict)
# 获取当前日期
current_date = date.today()
# 保存excel文件
r.record(f'采集输出-小红书笔记详情-{current_date}.xlsx')

保存的 excel 文件如下:

四、录屏

以一个爬取过程为例,录屏如下:

插入视频

视频地址 https://www.bilibili.com/video/BV1hu4m1w7Qt

五、全部代码

由于代码太长,在这里只给出主函数代码,有兴趣的读者可以根据上述信息自己补全代码。

主函数代码如下:

if __name__ == '__main__':# 第1次运行需要登录,后面不用登录,可以注释掉# sign_in()# 新建一个excel表格,用来保存数据r = Recorder(path='采集输出-小红书笔记详情.xlsx', cache_size=20)# 获取当前日期current_date = date.today()# 设置要采集的笔记链接# 多篇小红书笔记的url地址放在txt文件里,每行放1个urlnote_urls_file_path = '需要采集的笔记链接(每行放1个链接).txt'# 从txt文件读取urlsnote_urls = read_urls_from_txt(note_urls_file_path)for note_url in tqdm(note_urls):# 采集笔记详情,返回一个note_contents字典note_contents = get_note_page_info(note_url)# 将note_contents字典转换为字符串# note_contents = json.dumps(note_contents, separators=(',', ':'), ensure_ascii=False)# print(type(note_contents), "笔记详情:", note_contents)# 保存excel文件r.record(f'采集输出-小红书笔记详情-{current_date}.xlsx')

主函数截图如下:

六、总结

小红书是商业化很成功的平台,很多创业者在研究小红书流量。

上一篇文章发出后,效果很好,我结交了一些朋友,也赚到了一些睡后收入。

有很多读者在公众号后台加我微信,既有学生,也有创业者、小红书运营,还有开源作者、腾讯的小伙伴以及出版社老师,很开心能结交一些朋友。

七、获取完整源码

小红书的数据应该很有价值,特别有兴趣的小伙伴可以在公众号后台私聊我,以一杯咖啡的小红包获取全部代码(毕竟我写代码、调试代码几个晚上~~~)。

我的这个代码,调试的很好,运行几十次还没出过问题。可以帮助你获取对标博主的创作风格,有重点的分析和学习。

福利:上一篇文章承诺前 5 名读者付费可以获取后续更新的代码,说到做到,本篇完整源码免费送给这 5 位读者。

本篇继续放出 5 个名额,前 5 名购买读者可以免费获得后续更新代码。

每一份能满足他人需求的努力都值得被付费。

部分读者交流如下:

本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。还可以通过公众号添加我的私人微信。

这篇关于Python实战:爬取小红书-采集笔记详情的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/834558

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

滚雪球学Java(87):Java事务处理:JDBC的ACID属性与实战技巧!真有两下子!

咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE啦,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好习惯,别被干货淹没了哦~ 🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,助你一臂之力,带你早日登顶🚀,欢迎大家关注&&收藏!持续更新中,up!up!up!! 环境说明:Windows 10

nudepy,一个有趣的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个有趣的 Python 库 - nudepy。 Github地址:https://github.com/hhatto/nude.py 在图像处理和计算机视觉应用中,检测图像中的不适当内容(例如裸露图像)是一个重要的任务。nudepy 是一个基于 Python 的库,专门用于检测图像中的不适当内容。该