抓取b站视频信息存入excel表格 + 存进mysql (已修改)

2024-02-09 17:20

本文主要是介绍抓取b站视频信息存入excel表格 + 存进mysql (已修改),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、项目简介

 

1. 抓取搜索b站的视频,抓取标题、链接、播放量、弹幕数以及视频的上传时间,并把他们存放在excel中

2.涉及的类库:time、requests、xlwt、re、lxml

 

二、代码

 

# python
# -*- coding:utf-8 -*-
# author:Only time:2019/9/11'''
1.爬取b站 python3视频链接、播放量、以及名称
2.xpath解析
3.存mysql
'''
import xlwt
import re
import time
import requests
from lxml import etreedef save_excel():alllists = get_parse_html()f = xlwt.Workbook(encoding='utf-8')sheet = f.add_sheet('b站爬虫_python教学视频',cell_overwrite_ok=True)alllists.insert(0,("标题","链接","观看次数","弹幕","上传时间"))for row, row_list in enumerate(alllists):for column, column_list in enumerate(row_list):sheet.write(row,column,str(column_list))f.save('b站爬虫_python教学视频'+'.xls')def get_urllist(keyword):urllist = []for page in range(1,3):url = 'https://search.bilibili.com/all?keyword=' + keyword +'&page=' + str(page)urllist.append(url)return urllistdef get_parse_html():header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}alllists = []for url in get_urllist(keyword):response = requests.get(url, headers = header).texthtml = etree.HTML(response)# 标题titles = html.xpath('//div[@class="info"]//a//@title')# 链接links = html.xpath('//li[@class="video-item matrix"]/a/@href')# 观看次数people = html.xpath('//div[@class="tags"]/span[@title="观看"]/text()')peoples = []for i in people:people = i.replace('\n        ','')people = i.replace('\n      ', '')people = re.split(r'\s+',people)  # 正则表达式去空格people = people[1]if people[-1:] == '万':people = float(people[0:-1])*10000else:people = float(people)print(type(people))peoples.append(people)# 弹幕barrage = html.xpath('//div[@class="tags"]/span[@title="弹幕"]/text()')barrages = []for i in barrage:barrage = i.replace('\n        ','')barrage = i.replace('\n      ', '')barrages.append(barrage)# 上传时间data = html.xpath('//div[@class="tags"]/span[@title="上传时间"]/text()')datas = []for i in data:data = i.replace('\n        ', '')data = i.replace('\n      ', '')datas.append(data)#print("第"+str(number)+"页抓取成功")# time.sleep(5)  # 设置间隔时间为5秒抓取一次alllist = [zonghe for zonghe in zip(titles,links,peoples,barrages,datas)]alllists.extend(alllist)return alllistsif __name__ == "__main__":keyword = "python3"     # input("请输入要查找的关键字:")get_urllist(keyword)get_parse_html()save_excel()

 

三、运行结果

 

 

一、项目内容

1.抓取b站数据,存入mysql

2.涉及类库:re、lxml、requests、time、pymysql、

3.python3

4. mysql基础笔记

 

二、代码

# python
# -*- coding:utf-8 -*-
# author:Only time:2019/9/13import pymysql
import requests
import re
import time
from lxml import etree# 获得网址链接
def get_urllist(keyword):urllist = []for page in range(1,51):url = 'https://search.bilibili.com/all?keyword=' + keyword +'&page=' + str(page)urllist.append(url)print(urllist)return urllistdef save_mysql(url_list):# 连接数据库conn = pymysql.connect(host = '127.0.0.1',port = 3306,user = 'root',password = '123qwe',database = 'only',charset = 'utf8')cursor = conn.cursor()sql_1 = 'create table blibli(id int primary key auto_increment not null,title varchar(120) ,link varchar(120) , people float(8,2) , barrage varchar(120) , data varchar(120))'cursor.execute(sql_1)try:# 爬数据header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}for url in url_list:time.sleep(3)  # 设置延时  防止ip被封response = requests.get(url, headers=header).texthtml = etree.HTML(response)# 标题titles = html.xpath('//div[@class="info"]//a//@title')# 链接links = html.xpath('//li[@class="video-item matrix"]/a/@href')# 观看次数people = html.xpath('//div[@class="tags"]/span[@title="观看"]/text()')peoples = []for i in people:people = i.replace('\n        ', '')people = i.replace('\n      ', '')people = re.split(r'\s+', people)  # 正则表达式去空格people = people[1]if people[-1:] == '万':people = float(people[0:-1]) * 10000else:people = float(people)peoples.append(people)# 弹幕barrage = html.xpath('//div[@class="tags"]/span[@title="弹幕"]/text()')barrages = []for i in barrage:barrage = i.replace('\n        ', '')barrage = i.replace('\n      ', '')barrages.append(barrage)# 上传时间data = html.xpath('//div[@class="tags"]/span[@title="上传时间"]/text()')datas = []for i in data:data = i.replace('\n        ', '')data = i.replace('\n      ', '')datas.append(data)for i in range(len(datas)):print(titles[i])# 执行数据库操作sql_2 = '''insert into blibli(title,link,people,barrage,data) values ("%s","%s","%f","%s","%s")'''cursor.execute(sql_2 % (titles[i],links[i],peoples[i],barrages[i],datas[i]))cursor.fetchall()conn.commit()print("已提交")except Exception as  e:conn.rollback()print("数据已回滚")print(e)conn.close()if __name__ == "__main__":keyword = 'python3'url_list = get_urllist(keyword)save_mysql(url_list)

 

三、代码执行结果展示

 

 

 

这篇关于抓取b站视频信息存入excel表格 + 存进mysql (已修改)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/694842

相关文章

MySQL双主搭建+keepalived高可用的实现

《MySQL双主搭建+keepalived高可用的实现》本文主要介绍了MySQL双主搭建+keepalived高可用的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、测试环境准备二、主从搭建1.创建复制用户2.创建复制关系3.开启复制,确认复制是否成功4.同

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意:总结前言在javascript中控制视频播放

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Mysql表的简单操作(基本技能)

《Mysql表的简单操作(基本技能)》在数据库中,表的操作主要包括表的创建、查看、修改、删除等,了解如何操作这些表是数据库管理和开发的基本技能,本文给大家介绍Mysql表的简单操作,感兴趣的朋友一起看... 目录3.1 创建表 3.2 查看表结构3.3 修改表3.4 实践案例:修改表在数据库中,表的操作主要

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

《mysql出现ERROR2003(HY000):Can‘tconnecttoMySQLserveron‘localhost‘(10061)的解决方法》本文主要介绍了mysql出现... 目录前言:第一步:第二步:第三步:总结:前言:当你想通过命令窗口想打开mysql时候发现提http://www.cpp

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

MySQL错误代码2058和2059的解决办法

《MySQL错误代码2058和2059的解决办法》:本文主要介绍MySQL错误代码2058和2059的解决办法,2058和2059的错误码核心都是你用的客户端工具和mysql版本的密码插件不匹配,... 目录1. 前置理解2.报错现象3.解决办法(敲重点!!!)1. php前置理解2058和2059的错误