Python爬虫实战(五):某博终篇之粉丝和关注者账号的爬取

2024-03-04 17:10

本文主要是介绍Python爬虫实战(五):某博终篇之粉丝和关注者账号的爬取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

追风赶月莫停留,平芜尽处是春山。

文章目录

  • 追风赶月莫停留,平芜尽处是春山。
  • 一、网页分析
  • 二、接口分析
    • url分析
    • 返回数据分析
  • 三、编写代码
    • 获取数据
    • 保存数据
    • 完整代码

终于终于终于期末考试结束了,暑假集训也结束了,终于有时间来更新我的博客了!!
今天咱们来聊一聊关于微博粉丝和关注者账号的抓取。
依旧是使用新版微博,依旧是熟悉的女神迪丽热巴😍。

咱们先看粉丝

一、网页分析

在这里插入图片描述
点击热巴的粉丝,然后F12开发者模式,然后刷新,依次点击Network -> XHR -> friends?relate=fans... -> Preview, 你就会发现,热巴的粉丝的账户信息(uid,性别,个性签名, 认证信息,所在地区等等)
在这里插入图片描述
我给你们摘出来了请求但这个只是一页的,想获取所有的那就继续往下看吧!

二、接口分析

url分析

https://www.weibo.com/ajax/friendships/friends?relate=fans&page=1&uid=1669879400&type=all&newFollowerCount=0

很明显,他有两个参数:

  1. page
    这个参数掌管着页数,想要获得多页的数据那就必须改变它。
  2. uid
    这个参数掌管着你要获取粉丝和关注的博主的id,也就是用户id

如果你能掌管好这两个参数,那数据不就是手到擒来嘛!

返回数据分析

是get请求,返回数据格式是json格式,编码为utf-8
在这里插入图片描述
突然发现这几次实战请求方式都是GET请求,这可不行,下下期吧,我出一期POST请求的,也让大家看看POSTGET有啥区别。
回归正题~下一步就是编写代码了。

三、编写代码

知道了url规则,以及返回数据的格式,那现在咱们的任务就是构造url然后请求数据
uid不是问题,那怎么知道他有多少页呢
这个简单:
第一页
在这里插入图片描述
第二页
在这里插入图片描述
发现没,previous_cursor的数量加了20,而咱们请求一页数据返回的用户的数量正好是20个,totao_number对应的是该博主总粉丝数量,知道这两点,那咱们不就好办了,最大页数不就得是total_number/20,不能整除就加一,最后也就是 ⌈ t o t a l _ n u m b e r 20 ⌉ \lceil \frac{total\_number}{20} \rceil 20total_number这个都懂吧。

uid = ['1669879400']
for id in uid:# 先获取总的粉丝数量url = "https://www.weibo.com/ajax/friendships/friends?relate=fans&page={}&uid={}&type=all&newFollowerCount=0"html = get_html(url.format(1, id))response = json.loads(html)total_number = response['total_number']# 然后依次爬取每一页的数据for page in range(1, math.ceil(total_number/20) + 1):html = get_html(url.format(page, id))

只要在uid这个列表里添加用户id,这样就可以实现多个用户粉丝数据的抓取了。
对于每个url我们都要去用requests库中的get方法去请求数据:
所以我们为了方便就把请求网页的代码写成了函数get_html(url),传入的参数是url返回的是请求到的内容。

def get_html(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36","Referer": "https://weibo.com"}cookies = {"cookie": "你的cookie"}response = requests.get(url, headers=headers, cookies=cookies)time.sleep(5)   # 加上5s 的延时防止被反爬return response.text

注意这里一定要把你的cookie替换掉,不然请求不到内容。
cookies获取方式

获取数据

将获得的数据格式化为json格式的数据,然后提前他的粉丝的信息

response = json.loads(html)fans_list = response['users']data = {}   # 创建一个字典存放数据for fan in fans_list:data['uid'] = fan['id']     # 用户iddata['screen_name'] = fan['screen_name']    # 用户昵称data['description'] = fan['description']  # 个性签名data['gender'] = fan['gender']  # 性别data['followers_count'] = fan['followers_count']    # 粉丝的粉丝数量data['friends_count'] = fan['friends_count']    # 粉丝的关注数量data['statuses_count'] = fan['statuses_count']    # 粉丝的博文数量# 还有很多信息可以得到,我这里就不再举例子了

保存数据

封装了一个函数:

def save_fans_data(data):title = ['screen_name', 'description', 'followers_count', 'friends_count', 'statuses_count',  'gender', 'verified', 'verified_reason', 'birthday', 'created_at', 'sunshine_credit', 'company', 'school']with open("fans_data.csv", "a", encoding="utf-8", newline="")as fi:fi = csv.writer(fi)fi.writerow([data[k] for k in title])

再来看关注
在这里插入图片描述
你可以先去自己看一下,是不是和爬取粉丝数据的方式一样呀,自己尝试着编写一下代码吧~

完整代码

# -*- coding:utf-8 -*-
# @time: 2021/7/24 21:52
# @Author: 韩国麦当劳
# @Environment: Python 3.7
import json
import requests
import csv
import time
import mathdef get_html(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36","Referer": "https://weibo.com"}cookies = {"cookie": "你的cookie"}response = requests.get(url, headers=headers, cookies=cookies)time.sleep(5)   # 加上5s 的延时防止被反爬return response.textdef save_fans_data(data):title = ['uid', 'id', 'screen_name', 'description', 'followers_count', 'friends_count', 'statuses_count',  'gender']with open("fans_data.csv", "a", encoding="utf-8", newline="")as fi:fi = csv.writer(fi)fi.writerow([data[k] for k in title])def save_followers_data(data):title = ['uid', 'id', 'screen_name', 'description', 'followers_count', 'friends_count', 'statuses_count',  'gender']with open("followers_data.csv", "a", encoding="utf-8", newline="")as fi:fi = csv.writer(fi)fi.writerow([data[k] for k in title])def get_fans_data(id):# 先获取总的粉丝数量url = "https://www.weibo.com/ajax/friendships/friends?relate=fans&page={}&uid={}&type=all&newFollowerCount=0"html = get_html(url.format(1, id))response = json.loads(html)total_number = response['total_number']# 然后依次爬取每一页的数据for page in range(1, math.ceil(total_number/20) + 1):html = get_html(url.format(page, id))response = json.loads(html)fans_list = response['users']data = {}   # 创建一个字典存放数据for fan in fans_list:data['uid'] = iddata['id'] = fan['id']     # 用户iddata['screen_name'] = fan['screen_name']    # 用户昵称data['description'] = fan['description']  # 个性签名data['gender'] = fan['gender']  # 性别data['followers_count'] = fan['followers_count']    # 粉丝的粉丝数量data['friends_count'] = fan['friends_count']    # 粉丝的关注数量data['statuses_count'] = fan['statuses_count']    # 粉丝的博文数量# 还有很多信息可以得到,我这里就不再举例子了save_fans_data(data)def get_followers_data(id):# 先获取总的关注的数量url = "https://www.weibo.com/ajax/friendships/friends?page={}&uid={}"html = get_html(url.format(1, id))response = json.loads(html)total_number = response['total_number']# 然后依次爬取每一页的数据for page in range(1, math.ceil(total_number / 20) + 1):html = get_html(url.format(page, id))response = json.loads(html)fans_list = response['users']data = {}  # 创建一个字典存放数据for fan in fans_list:data['uid'] = iddata['id'] = fan['id']  # 用户iddata['screen_name'] = fan['screen_name']  # 用户昵称data['description'] = fan['description']  # 个性签名data['gender'] = fan['gender']  # 性别data['followers_count'] = fan['followers_count']  # 关注的粉丝数量data['friends_count'] = fan['friends_count']  # 关注的关注数量data['statuses_count'] = fan['statuses_count']  # 关注的博文数量# 还有很多信息可以得到,我这里就不再举例子了save_followers_data(data)if __name__ == '__main__':uid = ['1669879400']    # 如果想获取多个人的粉丝关注信息,就在后面依次加上uidfor id in uid:get_fans_data(id)get_followers_data(id)

获得的部分数据截图(以前是我不好,从今以后获得的数据只要是涉及到隐私的全部打码处理)。
在这里插入图片描述
下期预告:
百度指数对于一个关键词的搜索指数和咨询指数的抓取,提前剧透一下:js加密数据哟~
在这里插入图片描述
欢迎一键三连哦!
还想看哪个网站的爬虫?欢迎留言,说不定下次要分析的就是你想要看的!

这篇关于Python爬虫实战(五):某博终篇之粉丝和关注者账号的爬取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/773862

相关文章

Python结合PyWebView库打造跨平台桌面应用

《Python结合PyWebView库打造跨平台桌面应用》随着Web技术的发展,将HTML/CSS/JavaScript与Python结合构建桌面应用成为可能,本文将系统讲解如何使用PyWebView... 目录一、技术原理与优势分析1.1 架构原理1.2 核心优势二、开发环境搭建2.1 安装依赖2.2 验

一文详解如何在Python中从字符串中提取部分内容

《一文详解如何在Python中从字符串中提取部分内容》:本文主要介绍如何在Python中从字符串中提取部分内容的相关资料,包括使用正则表达式、Pyparsing库、AST(抽象语法树)、字符串操作... 目录前言解决方案方法一:使用正则表达式方法二:使用 Pyparsing方法三:使用 AST方法四:使用字

Python列表去重的4种核心方法与实战指南详解

《Python列表去重的4种核心方法与实战指南详解》在Python开发中,处理列表数据时经常需要去除重复元素,本文将详细介绍4种最实用的列表去重方法,有需要的小伙伴可以根据自己的需要进行选择... 目录方法1:集合(set)去重法(最快速)方法2:顺序遍历法(保持顺序)方法3:副本删除法(原地修改)方法4:

Python运行中频繁出现Restart提示的解决办法

《Python运行中频繁出现Restart提示的解决办法》在编程的世界里,遇到各种奇怪的问题是家常便饭,但是,当你的Python程序在运行过程中频繁出现“Restart”提示时,这可能不仅仅是令人头疼... 目录问题描述代码示例无限循环递归调用内存泄漏解决方案1. 检查代码逻辑无限循环递归调用内存泄漏2.

Python中判断对象是否为空的方法

《Python中判断对象是否为空的方法》在Python开发中,判断对象是否为“空”是高频操作,但看似简单的需求却暗藏玄机,从None到空容器,从零值到自定义对象的“假值”状态,不同场景下的“空”需要精... 目录一、python中的“空”值体系二、精准判定方法对比三、常见误区解析四、进阶处理技巧五、性能优化

使用Python构建一个Hexo博客发布工具

《使用Python构建一个Hexo博客发布工具》虽然Hexo的命令行工具非常强大,但对于日常的博客撰写和发布过程,我总觉得缺少一个直观的图形界面来简化操作,下面我们就来看看如何使用Python构建一个... 目录引言Hexo博客系统简介设计需求技术选择代码实现主框架界面设计核心功能实现1. 发布文章2. 加

在Spring Boot中浅尝内存泄漏的实战记录

《在SpringBoot中浅尝内存泄漏的实战记录》本文给大家分享在SpringBoot中浅尝内存泄漏的实战记录,结合实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录使用静态集合持有对象引用,阻止GC回收关键点:可执行代码:验证:1,运行程序(启动时添加JVM参数限制堆大小):2,访问 htt

python logging模块详解及其日志定时清理方式

《pythonlogging模块详解及其日志定时清理方式》:本文主要介绍pythonlogging模块详解及其日志定时清理方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录python logging模块及日志定时清理1.创建logger对象2.logging.basicCo

Python如何自动生成环境依赖包requirements

《Python如何自动生成环境依赖包requirements》:本文主要介绍Python如何自动生成环境依赖包requirements问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录生成当前 python 环境 安装的所有依赖包1、命令2、常见问题只生成当前 项目 的所有依赖包1、

如何将Python彻底卸载的三种方法

《如何将Python彻底卸载的三种方法》通常我们在一些软件的使用上有碰壁,第一反应就是卸载重装,所以有小伙伴就问我Python怎么卸载才能彻底卸载干净,今天这篇文章,小编就来教大家如何彻底卸载Pyth... 目录软件卸载①方法:②方法:③方法:清理相关文件夹软件卸载①方法:首先,在安装python时,下