【PYTHON数据分析实战】电影票房数据分析(二)数据可视化

2023-10-13 21:40

本文主要是介绍【PYTHON数据分析实战】电影票房数据分析(二)数据可视化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据抽取:
采集到的票房数据是按天统计的,并且我们只看正常上映的和点映的,其他如重映等场次均不在本次统计内。
因此我们先对mysql中的数据releaseInfo字段进行筛选,然后根据上映年份和月份进行分组聚合,得到10年内每月的票房数据。
用sql取到数据后,再将不同年份的数据分别放入list中,原始数据是以"万"为单位的str,这里我们折算为以"亿"为单位的float。

构造图像:
x轴数据为年份,
再分别将不同年份的票房数据添加到y轴中,
最后配置下图像的属性即可。

'''
python学习交流群:1136201545更多学习资料可以加群获取
'''
config = {...}    # db配置省略
conn = pymysql.connect(**config)
cursor = conn.cursor()
sql = '''select  substr(`date`,1,4) year, substr(`date`,5,2) month, round(sum(`boxInfo`),2) monthbox from movies_data where (substr(`releaseInfo`,1,2) = '上映' or `releaseInfo`='点映' ) group by year,month order by year,month'''
cursor.execute(sql)
data = cursor.fetchall()
x_data = list(set([int(i[1]) for i in data]))
x_data.sort()
x_data = list(map(str, x_data))
y_data1 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2011']
y_data2 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2012']
y_data3 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2013']
y_data4 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2014']
y_data5 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2015']
y_data6 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2016']
y_data7 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2017']
y_data8 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2018']
y_data9 = [round(int(i[2]) / 10000, 2) for i in data if i[0] == '2019']
cursor.close()
conn.close()def line_base() -> Line:c = (Line(init_opts=opts.InitOpts(height="600px", width="1300px")).add_xaxis(x_data).add_yaxis("2011", y_data1).add_yaxis("2012", y_data2).add_yaxis("2013", y_data3).add_yaxis("2014", y_data4).add_yaxis("2015", y_data5).add_yaxis("2016", y_data6).add_yaxis("2017", y_data7).add_yaxis("2018", y_data8).add_yaxis("2019", y_data9).set_global_opts(title_opts=opts.TitleOpts(title="月票房走势"),legend_opts=opts.LegendOpts(type_="scroll", pos_top="55%", pos_left="95%", orient="vertical"),xaxis_opts=opts.AxisOpts(axistick_opts=opts.AxisTickOpts(is_align_with_label=True), boundary_gap=False, ),).set_series_opts(label_opts=opts.LabelOpts(is_show=False),  # 不显示柱体上的标注(数值)markline_opts=opts.MarkLineOpts(data=[opts.MarkLineItem(type_="max", name="最大值"), ]), ).extend_axis(yaxis=opts.AxisOpts(name="票房(亿元)", position='left'),  # 设置y轴标签显示格式,数据+"人"xaxis=opts.AxisOpts(name="月份")))return cline_base().render("v1.html")

有本图可以看出:
1、近10年票房总数逐渐增长(当然这是废话)
2、11-13年每月票房波动很小,几乎没有明显的高峰档期,最近两年高峰档期最为明显,集中在春节、暑期和十一。
在这里插入图片描述
年票房总值、上映影片总数及观影人次

第二张图,我们要看一下票房、上映影片数和观影人次 逐年的变化情况

数据抽取:
先筛选releaseInfo 为正常上映和首映的数据,
再按年份分组,也就是date字段的前4位,

对当日票房字段进行sum聚合得到年度总票房;
对movieId字段去重 并求得出现次数 即为上映的影片总数;
场均人数 * 排片场次 是当日观影人次,再用sum求得年观影人次。
构造图像:
因为三类数据的x轴都是年份,所以可放在一张图上展示,为了观察更直观,将其中一项数据作成柱状图,另外两项做成折线图。

1、先构造折线图图,将票房和影片数量添加为y轴数据,年份为x轴数据。
2、因为票房和上映影片数 在做完单位换算后,值域基本相同,所以可以共用一个y轴,而观影人次则需要使用单独的y轴,
所以要添加一个新的y轴,并分别指定这三项数据的y轴索引,即票房和上映影片数 使用默认的y轴索 引为0,而观影人次使用后添加的y轴,索引为1。
3、再构造柱状图,y轴数据为观影人次,x轴数据依然为年份,并指定y轴索引为1
4、最后,将柱状图和折线图重叠输出,再简单调整一下图像位置即可。

config = {...}    # db配置省略
conn = pymysql.connect(**config)
cursor = conn.cursor()
sql2 = '''select substr(date,1,4), round(sum(boxInfo)/10000,2), count(DISTINCT movieId), round(sum(avgShowView*showInfo)/100000000,2) from movies_data where (substr(`releaseInfo`,1,2) = '上映' or `releaseInfo`='点映' ) GROUP by substr(date,1,4)'''
cursor.execute(sql2)
data2 = cursor.fetchall()
x_data2 = [i[0] for i in data2]
y_data2_1 = [i[1] for i in data2]
y_data2_2 = [i[2] for i in data2]
y_data2_3 = [i[3] for i in data2]
cursor.close()
conn.close()def bar_base() -> Line:c = (Line().add_xaxis(x_data2).add_yaxis("总票房", y_data2_1, yaxis_index=0).add_yaxis("上映电影总数", y_data2_2, color='LimeGreen', yaxis_index=0, ).set_global_opts(title_opts=opts.TitleOpts(title="年票房总值、上映影片总数及观影总人次"),legend_opts=opts.LegendOpts(pos_left="40%"),).extend_axis(yaxis=opts.AxisOpts(name="票房/数量(亿元/部)", position='left')).extend_axis(yaxis=opts.AxisOpts(name="人次(亿)", type_="value", position="right",  # 设置y轴的名称,类型,位置axisline_opts=opts.AxisLineOpts(linestyle_opts=opts.LineStyleOpts(color="#483D8B")), )))bar = (Bar().add_xaxis(x_data2).add_yaxis("观影人次", y_data2_3, yaxis_index=2, category_gap="1%",label_opts=opts.LabelOpts(position="inside")))c.overlap(bar)return Grid().add(c, opts.GridOpts(pos_left="10%",pos_top='20%'), is_control_axis_index=True)  # 调整位置bar_base().render("v2.html")

本图可以看出:
(2019年数据下滑是因为统计时 2019年刚到10月下旬,还没有得到一年完整的数据。)
1、上映影片数增长幅度不大,票房和观影人次涨幅相近,因此票房逐年增长的最主要原因是观影人次的增长,年平均票价应该变化不大。
在这里插入图片描述
图3 单片总票房及日均票房

影片的上映期长短不一,这也影响了影片的票房情况,所以这张图我们要看一下单片总票房和日均票房的情况。

config = {...}    # db配置省略
conn = pymysql.connect(**config)cursor = conn.cursor()
sql2 = '''select a.*,b.releasemonth from (select movieid,moviename,round(sum(boxinfo)/10000,2) sumBox,count(movieid) releasedays,round(sum(boxinfo)/count(movieid)/10000,2) avgdayboxfrom movies_data where (substr(`releaseInfo`,1,2) = '上映' or `releaseInfo`='点映' ) group by movieid,moviename) a ,(select substr(date,5,2) releasemonth,movieId,movieName,releaseInfo from movies_data where releaseInfo='上映首日') bwhere a.movieid = b.movieid  order by sumBox desc'''
cursor.execute(sql2)
data3 = cursor.fetchall()
x_data3 = [i[1] for i in data3[:30]]  # 名称
y_data3_1 = [i[2] for i in data3[:30]]  # 总票房
y_data3_2 = [i[4] for i in data3[:30]]  # 日均票房
y_data3_3 = [int(i[5]) for i in data3[:30]]  # 上映月份
cursor.close()
conn.close()def bar_base() -> Line:c = (Bar(init_opts=opts.InitOpts(height="600px", width="1500px")).add_xaxis(x_data3).add_yaxis("影片总票房", y_data3_1, yaxis_index=0)# .add_yaxis("影片日均票房", y_data3_2, yaxis_index=1, gap='-40%').set_global_opts(title_opts=opts.TitleOpts(title="单片总票房及日均票房"),xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-45)),datazoom_opts=opts.DataZoomOpts(), ).set_series_opts(label_opts=opts.LabelOpts(is_show=False),  # 不显示柱体上的标注(数值)markpoint_opts=opts.MarkPointOpts(data=[opts.MarkPointItem(type_="max", name="最大值"),opts.MarkPointItem(type_="min", name="最小值"), ]),).extend_axis(yaxis=opts.AxisOpts(name="亿元", position='left')).extend_axis(yaxis=opts.AxisOpts(name="亿元", type_="value", position="right",  # 设置y轴的名称,类型,位置axisline_opts=opts.AxisLineOpts(linestyle_opts=opts.LineStyleOpts(color="#483D8B")), )))bar = (Bar(init_opts=opts.InitOpts(height="600px", width="1500px")).add_xaxis(x_data3)# .add_yaxis("影片总票房", y_data3_1, yaxis_index=0).add_yaxis("影片日均票房", y_data3_2, yaxis_index=2, gap='-40%').set_global_opts(title_opts=opts.TitleOpts(title="单片总票房及日均票房"),).set_series_opts(label_opts=opts.LabelOpts(is_show=False),  # 不显示柱体上的标注(数值)markpoint_opts=opts.MarkPointOpts(data=[opts.MarkPointItem(type_="max", name="最大值"),opts.MarkPointItem(type_="min", name="最小值"), ]),markline_opts=opts.MarkLineOpts(data=[opts.MarkLineItem(type_="average", name="平均值"), ]),))c.overlap(bar)return Grid().add(c, opts.GridOpts(pos_left="5%", pos_right="20%"), is_control_axis_index=True)  # 调整位置bar_base().render("v3.html")

可以看出有的电影虽然总票房一般,但是日均票房很高,说明上映时间不长但却很火爆。
而对于总票房很高,但日均票房一般的影片,可能是由于上映时间较长,后期较低的上座率拉低了日均票房。
所以看一个影片的火爆程度,总票房只是一方面,在相同上映时间内的上座率变化趋势也很重要。
在这里插入图片描述
图4 单片票房及上映月份关系图

本图相当于图一的补充,主要是看一下高票房的影片和上映时间的关系

def dayformat(i):mm = int(i[-2])dd = int(i[-1])mmdd = mm + dd/100*3.3return mmddconfig = {...}    # db配置省略
conn = pymysql.connect(**config)cursor = conn.cursor()
sql2 = '''select a.*,b.releaseyear,b.releasemonth,b.releaseday from (select movieid,moviename,round(sum(boxinfo)/10000,2) sumBox,count(movieid) releasedays,round(sum(boxinfo)/count(movieid)/10000,2) avgdayboxfrom movies_data where (substr(`releaseInfo`,1,2) = '上映' or `releaseInfo`='点映' ) group by movieid,moviename) a ,(select substr(date,1,4) releaseyear,substr(date,5,2) releasemonth,substr(date,7,2) releaseday,movieId,movieName,releaseInfo from movies_data where releaseInfo='上映首日') bwhere a.movieid = b.movieid  order by sumBox desc'''cursor.execute(sql2)
data4 = cursor.fetchall()x_data4 = [i for i in range(1, 13)]
y_data4_1 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2011']
y_data4_2 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2012']
y_data4_3 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2013']
y_data4_4 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2014']
y_data4_5 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2015']
y_data4_6 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2016']
y_data4_7 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2017']
y_data4_8 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2018']
y_data4_9 = [(dayformat(i), i[2]) for i in data4 if i[-3] == '2019']
cursor.close()
conn.close()my_config = pygal.Config()  # 创建Config实例
my_config.show_y_guides = False  # 隐藏水平虚线
my_config.show_x_guides = True
xy_chart = pygal.XY(stroke=False, config=my_config)
xy_chart.title = '单片票房及上映月份关系图'xy_chart.add('2011', y_data4_1)
xy_chart.add('2012', y_data4_2)
xy_chart.add('2013', y_data4_3)
xy_chart.add('2014', y_data4_4)
xy_chart.add('2015', y_data4_5)
xy_chart.add('2016', y_data4_6)
xy_chart.add('2017', y_data4_7)
xy_chart.add('2018', y_data4_8)
xy_chart.add('2019', y_data4_9)xy_chart.render_to_file("v4.svg")

在这里插入图片描述

这篇关于【PYTHON数据分析实战】电影票房数据分析(二)数据可视化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/206041

相关文章

Java实战之利用POI生成Excel图表

《Java实战之利用POI生成Excel图表》ApachePOI是Java生态中处理Office文档的核心工具,这篇文章主要为大家详细介绍了如何在Excel中创建折线图,柱状图,饼图等常见图表,需要的... 目录一、环境配置与依赖管理二、数据源准备与工作表构建三、图表生成核心步骤1. 折线图(Line Ch

Python中常用的四种取整方式分享

《Python中常用的四种取整方式分享》在数据处理和数值计算中,取整操作是非常常见的需求,Python提供了多种取整方式,本文为大家整理了四种常用的方法,希望对大家有所帮助... 目录引言向零取整(Truncate)向下取整(Floor)向上取整(Ceil)四舍五入(Round)四种取整方式的对比综合示例应

python 3.8 的anaconda下载方法

《python3.8的anaconda下载方法》本文详细介绍了如何下载和安装带有Python3.8的Anaconda发行版,包括Anaconda简介、下载步骤、安装指南以及验证安装结果,此外,还介... 目录python3.8 版本的 Anaconda 下载与安装指南一、Anaconda 简介二、下载 An

Python自动化处理手机验证码

《Python自动化处理手机验证码》手机验证码是一种常见的身份验证手段,广泛应用于用户注册、登录、交易确认等场景,下面我们来看看如何使用Python自动化处理手机验证码吧... 目录一、获取手机验证码1.1 通过短信接收验证码1.2 使用第三方短信接收服务1.3 使用ADB读取手机短信1.4 通过API获取

python安装whl包并解决依赖关系的实现

《python安装whl包并解决依赖关系的实现》本文主要介绍了python安装whl包并解决依赖关系的实现,文中通过图文示例介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录一、什么是whl文件?二、我们为什么需要使用whl文件来安装python库?三、我们应该去哪儿下

Python脚本实现图片文件批量命名

《Python脚本实现图片文件批量命名》这篇文章主要为大家详细介绍了一个用python第三方库pillow写的批量处理图片命名的脚本,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言源码批量处理图片尺寸脚本源码GUI界面源码打包成.exe可执行文件前言本文介绍一个用python第三方库pi

Python中多线程和多进程的基本用法详解

《Python中多线程和多进程的基本用法详解》这篇文章介绍了Python中多线程和多进程的相关知识,包括并发编程的优势,多线程和多进程的概念、适用场景、示例代码,线程池和进程池的使用,以及如何选择合适... 目录引言一、并发编程的主要优势二、python的多线程(Threading)1. 什么是多线程?2.

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

Python自动化Office文档处理全攻略

《Python自动化Office文档处理全攻略》在日常办公中,处理Word、Excel和PDF等Office文档是再常见不过的任务,手动操作这些文档不仅耗时耗力,还容易出错,幸运的是,Python提供... 目录一、自动化处理Word文档1. 安装python-docx库2. 读取Word文档内容3. 修改

Rust中的BoxT之堆上的数据与递归类型详解

《Rust中的BoxT之堆上的数据与递归类型详解》本文介绍了Rust中的BoxT类型,包括其在堆与栈之间的内存分配,性能优势,以及如何利用BoxT来实现递归类型和处理大小未知类型,通过BoxT,Rus... 目录1. Box<T> 的基础知识1.1 堆与栈的分工1.2 性能优势2.1 递归类型的问题2.2