【网络爬虫】使用Python披露采集Up主视频详情信息

2024-01-17 00:20

本文主要是介绍【网络爬虫】使用Python披露采集Up主视频详情信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

一、问题

看到一个B站账号-祖国街景,使用行车记录仪记录中国城市,同时该账号还有youtube账号(中国街景), 感觉视频的评论和弹幕可以用来做城市形象方面的数据分析。

但是需要有每个视频的Bvid才能采集。今天要分享的内容是如何获取某Up主的所有视频对应的Bvid等信息 。完整的爬虫撰写步骤:

  1. 发现网址规律,获得批量url
  2. 对某个url发起成功的访问
  3. 解析该url对应的网页数据
  4. 存储到csv
  5. 对所有url, 重复步骤2-4

为了减少工作量, 我就简单分析下网址规律,直接上代码。

二、网址规律

要获取某Up主视频Bvid等信息,只需要获得视频列表mid值,如下图。

在这里插入图片描述

找网址规律的方法是打开开发者工具Network面板, 在当前网页刷新, 按照截图标号顺序点击鼠标, 得到网址规律(下方截图红3)。剔除了对结果影响不大的参数,最终得到网址规律模板 template 。

template =  'https://api.bilibili.com/x/space/wbi/arc/search?mid={mid}&ps=30&pn={page}'

在这里插入图片描述

三、 爬虫代码

下方代码只需要改变 Up 主 mid 值,其他地方不要改动。我设置了限速,每秒访问一次, 直接运行代码,假设Up主有 9 页, 程序大概运行 9s 左右。

import requests
import csv
import timeheaders = {"user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"}
template =  'https://api.bilibili.com/x/space/wbi/arc/search?mid={mid}&ps=30&pn={page}'#只需更改这个参数,就能爬视频列表信息
mid = '373489046'with open('{mid}_infos.csv'.format(mid=mid), 'w', encoding='utf-8', newline='') as csvf:fieldnames = ['comment', 'typeid', 'play', 'pic', 'subtitle', 'description', 'copyright', 'title', 'review', 'author', 'mid', 'created', 'length', 'video_review', 'aid', 'bvid', 'hide_click', 'is_pay', 'is_union_video', 'is_steins_gate', 'is_live_playback', 'meta', 'is_avoided', 'attribute']writer = csv.DictWriter(csvf, fieldnames=fieldnames)writer.writeheader()url = template.format(mid=mid, page=1)resp = requests.get(url, headers=headers)record_num = resp.json()['data']['page']['count']max_page = int(record_num/30)+1for page in range(1, max_page+1):print('正在爬Up主第 {} 页'.format(page))url = template.format(mid=mid, page=page)resp = requests.get(url, headers=headers)vlist = resp.json()['data']['list']['vlist']for video in vlist:writer.writerow(video)time.sleep(1)

Run

    正在爬Up主第 1 页正在爬Up主第 2 页正在爬Up主第 3 页正在爬Up主第 4 页正在爬Up主第 5 页正在爬Up主第 6 页正在爬Up主第 7 页正在爬Up主第 8 页正在爬Up主第 9

四、导入数据

获取到Up主「祖国街景」的258个视频信息,含有的字段

comment 评论数
typeid 视频类型(猜测)
play 播放次数
pic 封面图链接
subtitle 副标题
description 视频描述
copyright 是否原创(猜测)
title 视频标题
review 评论数
author Up主昵称
mid Up主mid
created 创建时间(时间戳)
length 视频时长
video_review  是否原创(猜测)
aid 视频aid号
bvid 视频Bvid号
hide_click 未知
is_pay 是否付费
is_union_video 是否为联合制作
is_steins_gate 未知
is_live_playback 是否为直播回放
meta 视频元信息(含投币量、喜欢数、分享数)
is_avoided 未知
attribute 未知
import pandas as pddf = pd.read_csv('373489046_infos.csv')df.head()

在这里插入图片描述

#视频数量
len(df)

Run

259
#前5个内容
df['title'].tolist()[:5]

Run

['“800公里”时速(8倍速)从厦门开2000公里的车到成都是什么样的体验?','重庆至上海-G50沪渝高速全程,经安庆、池州、铜陵、宣城、湖州到达上海【下】','重庆至上海-G50沪渝高速全程【中】,经宜昌、荆州、武汉、鄂州、黄石','重庆至上海-G50沪渝高速全程,1751公里原声原速【上】','厦门至成都-横跨半个中国,G76厦蓉高速,经毕节、泸州、内江、资阳【下】']
#视频元信息(含投币量、喜欢数、分享数)
df['meta'].tolist()[:5]

Run

   ["{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}","{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}","{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}","{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}","{'id': 124822, 'title': '高速公路', 'cover': 'https://archive.biliimg.com/bfs/archive/634c1b4659e6958cba47322cca344a69f8121f34.jpg', 'mid': 373489046, 'intro': '', 'sign_state': 0, 'attribute': 140, 'stat': {'season_id': 124822, 'view': 1835970, 'danmaku': 14479, 'reply': 7495, 'favorite': 21838, 'coin': 10240, 'share': 5473, 'like': 40496, 'mtime': 1683437054, 'vt': 6497104, 'vv': 0}, 'ep_count': 38, 'first_aid': 253218067, 'ptime': 1683417600, 'ep_num': 0}"]

这篇关于【网络爬虫】使用Python披露采集Up主视频详情信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/614382

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal