TMDB电影数据分析（下）

本文主要是介绍TMDB电影数据分析（下），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

TMDB电影数据分析（下）

本文对源自Kaggle TMDB电影数据集进行分析影响电影票房的因素，数据分析流程包含数据集概分析、数据清洗、数据统计以及分析影响电影票房的因素。影响票房因素可能是电影预算、电影类型、电影时长、受欢迎程度、电影评分，发行时间等有关系，通过具体数据进行分析影响票房的因素。

数据集概分析以及数据清洗

接上文TMDB电影数据分析（上）

数据统计

1、查看收入前十的电影信息

初步猜测影响电影收入的因素是电影预算，电影类型，上映年份，电影时长，评分，参与评分次数，受欢迎程度等。下面我们找出电影收入最高的前十部电影的基本信息。
在这里插入图片描述

第一行代码调用sort_values()方法针对revenue字段进行降序排列并取前10行记录赋值给top10变量。该变量的值是一份DataFrame表格，一共有11行，第一行是列标题，剩下10行是电影收入排名前十的电影信息。第二行代码输出top10表格中的buget、genres、original_title等字段，结果发现电影收入排名前十的电影预算相对高，genres字段中id为12、name为Adventure的电影和id为28、name为Action的电影占比较大，release_date字段中显示上映年份基本分布在2000年后，vote_count字段表明参与评分次数相对充足，从vote_average字段看出收入高的电影评分不低，而popularity字段显示高收入电影的受欢迎程度。

2、计算收入与其他字段相关系数

第一行代码在原数据集中增加一个release_year字段，数据集中提供了电影上映日期，但release_data字段值的数据类型不是日期类型，使用DataFrame的to_datatime()函数将指定格式转为日期格式，使用year属性获取日期中的年份作为新增字段的值。为了验证猜测，第二行代码中调用DataFrame的corr()函数计算budget、release_year、runtime、popularity、vote_average、vote_count等字段与revenue（电影收入）字段的相关性，获取发现revenue字段与budget、popularity及vote_count字段相关系数分别为0.70、0.60及0.76，具有高相关性，revenue字段与runtime、release_year、vote_average字段相关系数分别为0.23、0.14、0.18，具有低相关性。
在这里插入图片描述

3、查看电影年份分布

首先调用DataFrame中的value_counts()方法对release_year字段值进行频数统计，得出各个年度发行的电影数量，数据集中电影发行年份自1916年起，包含89个年份的电影信息。
在这里插入图片描述

通过绘制直方图直观看出电影在各年度的分布情况，如下图所示。
在这里插入图片描述

从图中可以看出，电影发行年份集中在2000-2016年之间。

4、查看电影时长分布

统计不同时长电影的数量，通过数据可以看出数据集中记录的电影时长总共有136个以及不同时长电影的数量。
在这里插入图片描述

通过直方图可以直观看出电影时长集中分布在80-130之间，其中时长在90-110的电影数量占比较大。
在这里插入图片描述

5、查看预算分布

在这里插入图片描述

数据集中低预算电影占比较大，预算集中在0至0.5x108

6、查看评分分布

在这里插入图片描述

电影的评分集中分布在5-7分

7、查看评论次数分布

在这里插入图片描述

数据集中绝大多数电影评论次数低于2000，其中评论次数在500以内评论次数占比最大。

影响收入的因素分析

1、绘制电影收入与影响因子散点图

下面的代码绘制budget、release_year、runtime、popularity、vote_average、vote_count等字段与revenue字段的散点图。Matplotlib.pyplot模块参数可用plt.rcParams[‘配置参数’]=[修改值]进行修改默认配置，rcParams即run configuration parameters运行配置参数。第一行代码修改配置参数中的字体（font）为黑体（SimHei），是为了在图中可以正常显示中文。第三行代码使用Matplotlib.pyplot模块提供的subplots()函数返回一个元组，包括一个图形对象和所有的axes对象作为元素的ndarray对象，ndarray是2行3列的矩阵，每一个axes对象通过索引进行访问，索引下标从0开始。为每一个axes对象调用scatter()方法绘制散点图，并调用set_title()方法为每个axes对象增加标题。完成子图绘制后，代码第7行调用suptitle()方法为fig对象增加一个标题。效果如下图所示；

在这里插入图片描述

上图的第一行标题为budget、popularrity、vote_count的三个子图能更可以直观看出，budget、popularrity、vote_count字段与revenue字段呈线性分布，意味着随影响因子增长，收入整体均呈增长趋势。而第二行标题为vote_average、runtime、release_year的三个子图表明，vote_average、runtime、release_year字段与revenue字段没有明显的线性关系。

2、分组分析电影收入与影响因子的关系

由于电影发行时间集中在2000年以后，为了更好研究影响电影票房的因素，我们针对2001年至2015年发布的电影数据做进一步分析。

首先，提取出发行年份在2001年至2015年的所有电影，保存到movies中，筛选后数据还有2103条记录。
在这里插入图片描述

电影中数据记录了2001至2015总共15年的电影数据，时间跨度可能会相对大一些，按照年份进行分组，以每5年作为一组，将电影数据分成三组，针对每一组数据分析影响电影票房的因素。
在这里插入图片描述

接下来，使用cut()方法将电影票房按照四分位点划分为四个等级，分别为’Low’, ‘Medium’, ‘Moderately High’, ‘High’，也即“低”、“中下”、“中上”和“高”。
在这里插入图片描述

划分等级后，按照revenueclass、 fiveyearclass字段对数据进行分组，取出各组数据的中位数，保存到变量d_summary中。
在这里插入图片描述

按年份分组后，得到三组数据，分别为‘2001-2005年’，‘2006-2010年’，‘2011-2015年’，针对每一组数据进行分析，随着收入越高，对应的预算越高，受欢迎程度越高，评论次数越多，电影时长、评分情况表现不明显。下面通过绘制条形图可以更直观的显示影响收入的因素。

下面代码调用matplotlib.pyplot模块中bar()函数绘制电影收入与预算、受欢迎度、评论次数、评分、时长、发行年份之间关系的条形图。
在这里插入图片描述

在这里插入图片描述

上图中含有6幅图，图中横坐标表示收入等级，纵坐标表示影响因素，针对每一幅图，同一收入等级中有三根柱子，从左向右以此表示为第一个5年数据，即2001至2005年电影数据，第二个5年数据，即2006至2010年电影数据，第三个5年数据，即2011至2015年电影数据。第一行分别绘制收入与预算条形图、收入与受欢迎程度条形图、收入与评论次数条形图。从收入与受欢迎程度图像可以看出，三组5年数据，每一组数据均是当电影票房高时，对应受欢迎程度也高，当收入处于同一个等级时，随着时间的推移，电影受欢迎程度略微增高，可能电影受欢迎层度受时间影响，间接影响着电影票房。

针对收入与预算条形图，对于每一组年份，预算对票房的影响比较明显，收入高的电影，对应预算也高，即随着预算增加，电影票房也增加。说明投资方在制片质量上具有保障性，外加对影片宣传力度大，使票房得以提高。另外，针对收入等级相同时，预算投入与时间没有直接关系，说明不会因为当时时代背景而影响电影预算投入。

针对收入与评论次数条形图，电影票房受评论次数影响比较大，参与评论的次数多的电影，电影票房高。

第二行分别绘制收入与评分条形图、收入与时长条形图、收入与年份条形图。从这三幅条形图可以看出，电影收入与电影评分、电影时长、电影发行年份的关联度不明显。说明评分高低、时长长短及上映年份与电影收入无关。

3、分析电影类型对电影收入的影响

由于每一部电影类型可以兼有多种类型，数据集中genres字段值是以字典数据类型给出。定义一个counttype函数，以数据集作为参数，使用for循环遍历genres字段数据，函数返回值为以电影类型为键，电影类型数量为值构成键值对的字典。
在这里插入图片描述

针对数据集数据统计各种类型电影数量，将统计结果绘制成条形图，可以更直观查看不同类型电影数量，发现Drama、Comedy是占比最多的。

在这里插入图片描述

按照受欢迎程度进行排序，提取最受欢迎前100部电影。并统计最受欢迎的100部电影不同类型占比。由于每一部电影类型可以兼有多种类型，数据集中genres字段值是以字典数据类型给出。使用for循环遍历genres字段数据，并以电影类型为键，电影数目为值构成的键值对作为元素存储到moviestype字典中，得到最受欢迎前100部电影不同类型的数量。
在这里插入图片描述