Python爬虫爬取香港电影评分网站各榜单

2023-10-30 08:30

本文主要是介绍Python爬虫爬取香港电影评分网站各榜单,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python爬虫

香港电影评分网站

在这里插入图片描述
各大榜单

在这里插入图片描述
最新电影榜单

在这里插入图片描述

步骤

1、找到所有的榜单地址

base_url = "https://hkmovie6.com"
edit_url = "https://hkmovie6.com/collection" # 编辑精选
marvel_url = "https://hkmovie6.com/collection/0bb46a15-ceaf-4cf0-a9ed-14284b32c5c1" # 漫威宇宙
dc_url = "https://hkmovie6.com/collection/c3400e0e-78ac-4184-ac4f-972f46dd3b07" # dc宇宙
star_wars_url = "https://hkmovie6.com/collection/3eabc7b5-c674-42a3-8069-522a02bf8f1a" # 星球大战系列
oscars_url = "https://hkmovie6.com/collection/ba07fa64-8297-49d7-ba4c-fb9bed210a65" # 奥斯卡金像奖得奖名单
new_url = "https://hkmovie6.com/watch/latest" # 最新

2、分析排行榜获取电影详情页地址

在这里插入图片描述

3、根据详情页获取电影信息

在这里插入图片描述
4、将爬取到的数据保存到Excel文件

在这里插入图片描述

代码

# -*- coding: utf-8 -*- import requests
from bs4 import BeautifulSoup
import xlwt'''
https://hkmovie6.com
'''
base_url = "https://hkmovie6.com"
edit_url = "https://hkmovie6.com/collection" # 编辑精选
marvel_url = "https://hkmovie6.com/collection/0bb46a15-ceaf-4cf0-a9ed-14284b32c5c1" # 漫威宇宙
dc_url = "https://hkmovie6.com/collection/c3400e0e-78ac-4184-ac4f-972f46dd3b07" # dc宇宙
star_wars_url = "https://hkmovie6.com/collection/3eabc7b5-c674-42a3-8069-522a02bf8f1a" # 星球大战系列
oscars_url = "https://hkmovie6.com/collection/ba07fa64-8297-49d7-ba4c-fb9bed210a65" # 奥斯卡金像奖得奖名单
new_url = "https://hkmovie6.com/watch/latest" # 最新def get_html(url,encoding):response = requests.get(url)if response.status_code == 200:# 判断请求是否成功response.encoding = encodingreturn response.textelse:return Nonedef get_new_data(savepath):'''获取最新模块数据:return:'''html = get_html(new_url, "utf-8")soup = BeautifulSoup(html,"html.parser")shows = soup.find("div",class_="shows")a_links = shows.find_all("a")datalist = []for a in a_links:mv_url = a['href']print(mv_url)result = get_detail_data(base_url + mv_url)datalist.append(result)save_to_excel(savepath,datalist)def get_marvel_data():'''获取漫威电影系列榜单:return:'''html = get_html(marvel_url,"utf-8")get_new_data(html,"./漫威.xls")def get_dc_data():'''获取dc电影系列榜单:return:'''html = get_html(dc_url,"utf-8")get_new_data(html,"./dc.xls")def get_sw_data():'''获取星球大战电影系列榜单:return:'''html = get_html(star_wars_url,"utf-8")get_new_data(html,"./星球大战.xls")def get_oscars_data():'''获取星球大战电影系列榜单:return:'''html = get_html(oscars_url, "utf-8")get_new_data(html, "./奥斯卡金像奖榜单.xls")def save_to_excel(savepath,datalist):book = xlwt.Workbook(encoding="utf-8", style_compression=0)  # 创建workbook对象sheet = book.add_sheet('Top100', cell_overwrite_ok=True)  # 创建工作表col = ("电影名", "时长", "上映日期", "级别","简介")for i in range(0,5):sheet.write(0, i, col[i])  # 列名for i in range(0, len(datalist)):print("第{}条".format(i + 1))data = datalist[i]if len(data) >= 5:# 数据完整才保存for j in range(0, 5):sheet.write(i + 1, j, data[j])book.save(savepath)  # 保存def get_detail_data(url):''':return:'''print(url)html = get_html(url,"utf-8")soup = BeautifulSoup(html, "html.parser")mv_content = soup.find("div",class_="movieContent")mv_detail = mv_content.find("div",class_="movieMobileDetail")mv_title = mv_detail.find("div",class_="movieName").get_text().strip()mv_tad = mv_detail.find("div",class_="text").get_text().strip().split("|")mv_duration = mv_tad[1].strip()mv_time = mv_tad[0].strip()mv_level = mv_detail.find("div",class_="cat").get_text().strip()mv_des = mv_content.find("div",class_="synopsis").span.span['aria-label'].strip()# 标题 2021年2月24日 | 103 分鐘 简介  级别return [mv_title,mv_duration,mv_time,mv_level,mv_des]def main():get_marvel_data()get_dc_data()get_sw_data()get_oscars_data()if __name__ == '__main__':main()

这篇关于Python爬虫爬取香港电影评分网站各榜单的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/306679

相关文章

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

利用Python编写一个简单的聊天机器人

《利用Python编写一个简单的聊天机器人》这篇文章主要为大家详细介绍了如何利用Python编写一个简单的聊天机器人,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 使用 python 编写一个简单的聊天机器人可以从最基础的逻辑开始,然后逐步加入更复杂的功能。这里我们将先实现一个简单的

基于Python开发电脑定时关机工具

《基于Python开发电脑定时关机工具》这篇文章主要为大家详细介绍了如何基于Python开发一个电脑定时关机工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 简介2. 运行效果3. 相关源码1. 简介这个程序就像一个“忠实的管家”,帮你按时关掉电脑,而且全程不需要你多做

Python实现高效地读写大型文件

《Python实现高效地读写大型文件》Python如何读写的是大型文件,有没有什么方法来提高效率呢,这篇文章就来和大家聊聊如何在Python中高效地读写大型文件,需要的可以了解下... 目录一、逐行读取大型文件二、分块读取大型文件三、使用 mmap 模块进行内存映射文件操作(适用于大文件)四、使用 pand

python实现pdf转word和excel的示例代码

《python实现pdf转word和excel的示例代码》本文主要介绍了python实现pdf转word和excel的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一、引言二、python编程1,PDF转Word2,PDF转Excel三、前端页面效果展示总结一

Python xmltodict实现简化XML数据处理

《Pythonxmltodict实现简化XML数据处理》Python社区为提供了xmltodict库,它专为简化XML与Python数据结构的转换而设计,本文主要来为大家介绍一下如何使用xmltod... 目录一、引言二、XMLtodict介绍设计理念适用场景三、功能参数与属性1、parse函数2、unpa

Python中使用defaultdict和Counter的方法

《Python中使用defaultdict和Counter的方法》本文深入探讨了Python中的两个强大工具——defaultdict和Counter,并详细介绍了它们的工作原理、应用场景以及在实际编... 目录引言defaultdict的深入应用什么是defaultdictdefaultdict的工作原理

Python中@classmethod和@staticmethod的区别

《Python中@classmethod和@staticmethod的区别》本文主要介绍了Python中@classmethod和@staticmethod的区别,文中通过示例代码介绍的非常详细,对大... 目录1.@classmethod2.@staticmethod3.例子1.@classmethod

Python手搓邮件发送客户端

《Python手搓邮件发送客户端》这篇文章主要为大家详细介绍了如何使用Python手搓邮件发送客户端,支持发送邮件,附件,定时发送以及个性化邮件正文,感兴趣的可以了解下... 目录1. 简介2.主要功能2.1.邮件发送功能2.2.个性签名功能2.3.定时发送功能2. 4.附件管理2.5.配置加载功能2.6.

使用Python进行文件读写操作的基本方法

《使用Python进行文件读写操作的基本方法》今天的内容来介绍Python中进行文件读写操作的方法,这在学习Python时是必不可少的技术点,希望可以帮助到正在学习python的小伙伴,以下是Pyth... 目录一、文件读取:二、文件写入:三、文件追加:四、文件读写的二进制模式:五、使用 json 模块读写