【网络爬虫】使用Python披露采集Up主视频详情信息

2024-01-17 00:20

本文主要是介绍【网络爬虫】使用Python披露采集Up主视频详情信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

一、问题

看到一个B站账号-祖国街景,使用行车记录仪记录中国城市,同时该账号还有youtube账号(中国街景), 感觉视频的评论和弹幕可以用来做城市形象方面的数据分析。

但是需要有每个视频的Bvid才能采集。今天要分享的内容是如何获取某Up主的所有视频对应的Bvid等信息 。完整的爬虫撰写步骤:

  1. 发现网址规律,获得批量url
  2. 对某个url发起成功的访问
  3. 解析该url对应的网页数据
  4. 存储到csv
  5. 对所有url, 重复步骤2-4

为了减少工作量, 我就简单分析下网址规律,直接上代码。

二、网址规律

要获取某Up主视频Bvid等信息,只需要获得视频列表mid值,如下图。

在这里插入图片描述

找网址规律的方法是打开开发者工具Network面板, 在当前网页刷新, 按照截图标号顺序点击鼠标, 得到网址规律(下方截图红3)。剔除了对结果影响不大的参数,最终得到网址规律模板 template 。

template =  'https://api.bilibili.com/x/space/wbi/arc/search?mid={mid}&ps=30&pn={page}'

在这里插入图片描述

三、 爬虫代码

下方代码只需要改变 Up 主 mid 值,其他地方不要改动。我设置了限速,每秒访问一次, 直接运行代码,假设Up主有 9 页, 程序大概运行 9s 左右。

import requests
import csv
import timeheaders = {"user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"}
template =  'https://api.bilibili.com/x/space/wbi/arc/search?mid={mid}&ps=30&pn={page}'#只需更改这个参数,就能爬视频列表信息
mid = '373489046'with open('{mid}_infos.csv'.format(mid=mid), 'w', encoding='utf-8', newline='') as csvf:fieldnames = ['comment', 'typeid', 'play', 'pic', 'subtitle', 'description', 'copyright', 'title', 'review', 'author', 'mid', 'created', 'length', 'video_review', 'aid', 'bvid', 'hide_click', 'is_pay', 'is_union_video', 'is_steins_gate', 'is_live_playback', 'meta', 'is_avoided', 'attribute']writer = csv.DictWriter(csvf, fieldnames=fieldnames)writer.writeheader()url = template.format(mid=mid, page=1)resp = requests.get(url, headers=headers)record_num = resp.json()['data']['page']['count']max_page = int(record_num/30)+1for page in range(1, max_page+1):print('正在爬Up主第 {} 页'.format(page))url = template.format(mid=mid, page=page)resp = requests.get(url, headers=headers)vlist = resp.json()['data']['list']['vlist']for video in vlist:writer.writerow(video)time.sleep(1)

Run

    正在爬Up主第 1 页正在爬Up主第 2 页正在爬Up主第 3 页正在爬Up主第 4 页正在爬Up主第 5 页正在爬Up主第 6 页正在爬Up主第 7 页正在爬Up主第 8 页正在爬Up主第 9

四、导入数据

获取到Up主「祖国街景」的258个视频信息,含有的字段

comment 评论数
typeid 视频类型(猜测)
play 播放次数
pic 封面图链接
subtitle 副标题
description 视频描述
copyright 是否原创(猜测)
title 视频标题
review 评论数
author Up主昵称
mid Up主mid
created 创建时间(时间戳)
length 视频时长
video_review  是否原创(猜测)
aid 视频aid号
bvid 视频Bvid号
hide_click 未知
is_pay 是否付费
is_union_video 是否为联合制作
is_steins_gate 未知
is_live_playback 是否为直播回放
meta 视频元信息(含投币量、喜欢数、分享数)
is_avoided 未知
attribute 未知
import pandas as pddf = pd.read_csv('373489046_infos.csv')df.head()

在这里插入图片描述

#视频数量
len(df)

Run

259
#前5个内容
df['title'].tolist()[:5]

Run

['“800公里”时速(8倍速)从厦门开2000公里的车到成都是什么样的体验?','重庆至上海-G50沪渝高速全程,经安庆、池州、铜陵、宣城、湖州到达上海【下】','重庆至上海-G50沪渝高速全程【中】,经宜昌、荆州、武汉、鄂州、黄石','重庆至上海-G50沪渝高速全程,1751公里原声原速【上】','厦门至成都-横跨半个中国,G76厦蓉高速,经毕节、泸州、内江、资阳【下】']
#视频元信息(含投币量、喜欢数、分享数)
df['meta'].tolist()[:5]

Run

   ["{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}","{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}","{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}","{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}","{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}"]

这篇关于【网络爬虫】使用Python披露采集Up主视频详情信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/614382

相关文章

详解Vue如何使用xlsx库导出Excel文件

《详解Vue如何使用xlsx库导出Excel文件》第三方库xlsx提供了强大的功能来处理Excel文件,它可以简化导出Excel文件这个过程,本文将为大家详细介绍一下它的具体使用,需要的小伙伴可以了解... 目录1. 安装依赖2. 创建vue组件3. 解释代码在Vue.js项目中导出Excel文件,使用第三

Linux alias的三种使用场景方式

《Linuxalias的三种使用场景方式》文章介绍了Linux中`alias`命令的三种使用场景:临时别名、用户级别别名和系统级别别名,临时别名仅在当前终端有效,用户级别别名在当前用户下所有终端有效... 目录linux alias三种使用场景一次性适用于当前用户全局生效,所有用户都可调用删除总结Linux

Python脚本实现自动删除C盘临时文件夹

《Python脚本实现自动删除C盘临时文件夹》在日常使用电脑的过程中,临时文件夹往往会积累大量的无用数据,占用宝贵的磁盘空间,下面我们就来看看Python如何通过脚本实现自动删除C盘临时文件夹吧... 目录一、准备工作二、python脚本编写三、脚本解析四、运行脚本五、案例演示六、注意事项七、总结在日常使用

java图像识别工具类(ImageRecognitionUtils)使用实例详解

《java图像识别工具类(ImageRecognitionUtils)使用实例详解》:本文主要介绍如何在Java中使用OpenCV进行图像识别,包括图像加载、预处理、分类、人脸检测和特征提取等步骤... 目录前言1. 图像识别的背景与作用2. 设计目标3. 项目依赖4. 设计与实现 ImageRecogni

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

python管理工具之conda安装部署及使用详解

《python管理工具之conda安装部署及使用详解》这篇文章详细介绍了如何安装和使用conda来管理Python环境,它涵盖了从安装部署、镜像源配置到具体的conda使用方法,包括创建、激活、安装包... 目录pytpshheraerUhon管理工具:conda部署+使用一、安装部署1、 下载2、 安装3

Mysql虚拟列的使用场景

《Mysql虚拟列的使用场景》MySQL虚拟列是一种在查询时动态生成的特殊列,它不占用存储空间,可以提高查询效率和数据处理便利性,本文给大家介绍Mysql虚拟列的相关知识,感兴趣的朋友一起看看吧... 目录1. 介绍mysql虚拟列1.1 定义和作用1.2 虚拟列与普通列的区别2. MySQL虚拟列的类型2

Python进阶之Excel基本操作介绍

《Python进阶之Excel基本操作介绍》在现实中,很多工作都需要与数据打交道,Excel作为常用的数据处理工具,一直备受人们的青睐,本文主要为大家介绍了一些Python中Excel的基本操作,希望... 目录概述写入使用 xlwt使用 XlsxWriter读取修改概述在现实中,很多工作都需要与数据打交

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

在C#中获取端口号与系统信息的高效实践

《在C#中获取端口号与系统信息的高效实践》在现代软件开发中,尤其是系统管理、运维、监控和性能优化等场景中,了解计算机硬件和网络的状态至关重要,C#作为一种广泛应用的编程语言,提供了丰富的API来帮助开... 目录引言1. 获取端口号信息1.1 获取活动的 TCP 和 UDP 连接说明:应用场景:2. 获取硬