《花木兰》得分太低?如何预测一部电影的IMDb评分? | Mixlab跨学科课程

本文主要是介绍《花木兰》得分太低?如何预测一部电影的IMDb评分? | Mixlab跨学科课程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

刘亦菲版的《花木兰》被指太烂甚至有外国网友认为,这是迪斯尼拍的世界级烂片 

在国外最权威的评分机构IMDb中有88%的人打了

那么问题来了,IMDb是什么?

互联网电影数据库

Internet Movie Database

简称IMDb

IMDb创办于1990年,是一个关于电影演员、电影、电视节目、电视艺人、电子游戏和电影制作小组的在线数据库。IMDb评分代表了一部电影的水平,是评判一部电影到底值不值得观看的重要指标。

那么,如何预测一部电影IMDb评分?有哪些因素是影响IMDb评分的呢?本系列将使用机器学习来完成这一研究课题。

机器学习实验课

本系列由4课组成

第1课  线性回归-最简单的理解世界的方式;

第2课 二分类为例-理解模型的优缺点;

第3课 到底模型学了什么?通过SHAP-Xgboost预测房价;

第4课 洞察影响IMDb评分的原因、电影IMDb评分预测。

编程语言是python,开发环境使用jupyter notebook。涉及的相关库:

numpy 

科学计算的基础软件包

pandas

基于numpy的分析结构化数据的工具包

sklearn

非常强力的机器学习库

xgboost

分布式梯度提升算法库

catboost

一种能够很好地处理类别型特征的梯度提升算法库

shap

可解释机器学习库

matplotlib

python绘图库,与numpy一起用

可有效替代MatLab

seaborn 

基于matplotlib的图形可视化python包

opencv

跨平台计算机视觉和机器学习软件库

paddlehub

便捷获取PaddlePaddle生态下的预训练模型

完成一键预测

第一课 

线性回归-最简单的理解世界的方式

通过最简单的线性回归,同学们可以熟悉机器学习开发流程,包括数据集、数据预处理、训练模型、评估模型、使用模型进行预测。

然后,结合经典的糖尿病患者数据集,介绍了探索数据集、数据可视化的方法。

第二课

二分类为例-理解模型的优缺点

以二分类问题为例,尝试各种模型的使用,理解各种模型的优缺点,重点掌握树模型:决策树、随机森林、梯度提升的使用。

第三课

到底模型学了什么?

以波士顿房价预测为例,重点练习seaborn探索数据集的各种图表,掌握分析数据集的思路;然后练习xgboost的使用,掌握训练、保存、加载以及如何使用模型;最后,介绍了SHAP值,通过SHAP值来了解模型学习到的特征分布。

SHAP

是一个python库,基于Shapley值的方法,使用合作博弈论来解释机器学习模型学习输入、输出。

Shapley值由Shapley在1953年创造,主要思想是根据玩家对总支出的贡献来为玩家分配支出的方法,玩家根据贡献值在联盟中进行合作并从这种合作中获得一定的收益。

在波士顿房价的预测中,我们可以知道模型认为,人口状况和住宅的房间数量是影响房价的关键因素。

针对每个预测的房价结果,还可以给出到底是因为什么因素所得出的结论。

比如下图所示,房价16.6高于基础报价14.14是由CRIM(犯罪率)和LSTAT(人口状况)的情况所增加的。表达为数学公式可以为:

f(x)=base_value+shape_values.sum()

第四课

洞察IMDb评分及评分预测

使用kaggle上的IMDb的电影数据集,通过深度学习识别电影海报的人脸数量,作为特征补充到数据集,然后把IMDb的评分作为目标值,训练一个基于catboost的回归模型,并通过shap值研究高分的决定特征是哪些。

结合以上2张图,我们可以有以下的洞察:

年份虽然是主要的决定因素,但与评分的关系比较复杂;

海报中是否出现人物也是一个关键的因素;

喜剧、爱情、战争、犯罪剧普遍具有较高的评分;

动作、历史、科幻具有较低的评分。

探索可能性

由于为了课程演示方便,仅从海报中提取了人脸数量,下一步可以拓展更多的特征,比如海报中的内容、海报的主要色调、构图形式、明暗等设计特征,重点挖掘哪些设计特征可能影响评分;

当然,决定IMDb分数高低的因素肯定不止海报设计的好坏,还有电影本身的剧情,针对这个可以通过评论来挖掘剧情的特征;另外,还有演员、导演等特征。

特征越多,是不是代表着越能挖掘到影响IMDb评分的决定因素,以及是否可以预测得越准,有一定的可能性。但需要我们进一步通过实验来进行探索。

课程思考

思考1:简短易上手

配合示例代码,整个系列仅有4次课,同时作为智能设计实验课的一个补充;

思考2:多种教学方式

为课程提供交流群,提供技术助教、导师等为同学们答疑;

思考3:兼顾广度与深度

覆盖了大部分的技术点(python库),深入在梯度提升这一机器学习算法;

思考4:兼顾基础与进阶

1 从基础的机器学习入门到具体的实践项目练习;

2 从实践项目到未来可拓展的研究方向。

- 全文结束 -

转发朋友圈后截图

加助教微信可获得

昨天LowCode活动的PPT及录播 

《SHOW ME NOCODE》 

助教(小哥哥)

MixLab    上海     北京     深圳     广州

作者:Shadow

主编:CHUN FANG

增长黑客:Chauncy Guo

这篇关于《花木兰》得分太低?如何预测一部电影的IMDb评分? | Mixlab跨学科课程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/167902

相关文章

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

《数字图像处理(面向新工科的电工电子信息基础课程系列教材)》P98

更改为 差分的数学表达式从泰勒级数展开式可得: 后悔没听廖老师的。 禹晶、肖创柏、廖庆敏《数字图像处理(面向新工科的电工电子信息基础课程系列教材)》 禹晶、肖创柏、廖庆敏《数字图像处理》资源二维码

Tensorflow lstm实现的小说撰写预测

最近,在研究深度学习方面的知识,结合Tensorflow,完成了基于lstm的小说预测程序demo。 lstm是改进的RNN,具有长期记忆功能,相对于RNN,增加了多个门来控制输入与输出。原理方面的知识网上很多,在此,我只是将我短暂学习的tensorflow写一个预测小说的demo,如果有错误,还望大家指出。 1、将小说进行分词,去除空格,建立词汇表与id的字典,生成初始输入模型的x与y d

临床基础两手抓!这个12+神经网络模型太贪了,免疫治疗预测、通路重要性、基因重要性、通路交互作用性全部拿下!

生信碱移 IRnet介绍 用于预测病人免疫治疗反应类型的生物过程嵌入神经网络,提供通路、通路交互、基因重要性的多重可解释性评估。 临床实践中常常遇到许多复杂的问题,常见的两种是: 二分类或多分类:预测患者对治疗有无耐受(二分类)、判断患者的疾病分级(多分类); 连续数值的预测:预测癌症病人的风险、预测患者的白细胞数值水平; 尽管传统的机器学习提供了高效的建模预测与初步的特征重

使用Python实现智能信用评分系统

1. 项目简介 本教程将带你一步步实现一个智能信用评分系统。我们将使用Python和一些常用的深度学习库,如TensorFlow和Keras。最终,我们将实现一个可以预测信用评分的模型。 2. 环境准备 首先,你需要安装以下库: TensorFlowKeraspandasnumpyscikit-learn 你可以使用以下命令安装这些库: pip install tensorflow

数据预处理与协同过滤推荐算法——从数据清洗到个性化电影推荐

推荐系统在现代应用中占据了重要地位,尤其在电影、音乐等个性化内容推荐中广泛使用。本文将介绍如何使用数据预处理、特征工程以及多种推荐算法(包括协同过滤、基于内容的推荐、混合推荐等)来实现电影推荐系统。通过Pandas、Scikit-learn、TensorFlow等工具,我们将展示如何从数据清洗开始,逐步实现各类推荐算法。  完整项目代码: 基于协同过滤的电影推荐系统 一、数据预处

下一代皮克斯:AI如何融合电影与游戏

故事是人类体验的核心,通过故事我们理解世界、寻找意义并与他人建立联系。技术的进步不断推动着故事叙述的形式,从迪士尼的多平面摄影机到皮克斯的3D图形技术,每一次技术革命都带来了故事叙述的新方式。 游戏:现代叙事的前沿 今天,有两个主要的趋势正在加速下一代叙事公司的诞生: 消费者转向互动媒体:过去三十年间,我们见证了消费者从传统的线性媒体(如电视和电影)向互动媒体(如游戏)的逐步迁移。对于Z世

结合Python与GUI实现比赛预测与游戏数据分析

在现代软件开发中,用户界面设计和数据处理紧密结合,以提升用户体验和功能性。本篇博客将基于Python代码和相关数据分析进行讨论,尤其是如何通过PyQt5等图形界面库实现交互式功能。同时,我们将探讨如何通过嵌入式预测模型为用户提供赛果预测服务。 本文的主要内容包括: 基于PyQt5的图形用户界面设计。结合数据进行比赛预测。文件处理和数据分析流程。 1. PyQt5 图形用户界面设计

CNN-LSTM模型中应用贝叶斯推断进行时间序列预测

这篇论文的标题是《在混合CNN-LSTM模型中应用贝叶斯推断进行时间序列预测》,作者是Thi-Lich Nghiem, Viet-Duc Le, Thi-Lan Le, Pierre Maréchal, Daniel Delahaye, Andrija Vidosavljevic。论文发表在2022年10月于越南富国岛举行的国际多媒体分析与模式识别会议(MAPR)上。 摘要部分提到,卷积

这位在做游戏的前电影导演,希望能变着法子讲故事,并给予玩家会心一击

从黎巴嫩到瑞典,从电影人到游戏从业者,这是一位“作者”开发者的冒险 这是又一名瑞典游戏开发者的故事。 区别于大多数安静内向的同行,Josef Fares 因为其张扬的个性而成为为玩家所熟知的开发界网红。他敢在 TGA 直播中脱口而出“F**k Oscar”,敢在开箱危机的风口浪尖为 EA 说话,他创作了两款极具个人风格的独立游戏——讲述兄弟在幻想世界里历险为父亲求解药的《兄弟:双子传说》(Br