YYDS!用Python预测了世界杯冠军

2024-02-22 23:59

本文主要是介绍YYDS!用Python预测了世界杯冠军,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1839d95d5064132ec8075342b68e19ec.gif

来源:机器学习AI算法工程

该项目所属数据挖掘类型:分类预测问题。

通过对2018年之前世界杯各个国家球队的表现以及比分结果进行数据分析,并结合以往各个球队在历届世界杯中的表现,通过机器学习算法建立模型,并对其进行评价以及模型优化之后,进行模拟2022年卡塔尔世界杯的冠军球队的归属。

首先从Kaggle网站上找到合适的历年世界杯的比赛结果数据集。

网址:https://www.kaggle.com/abecklas/fifa-world-cup

该数据存在诸多多余的属性:如比赛年份,比赛场地等。我们首先去掉无关的属性,只留下:主队、客队、主队进球数、客队进球数,比赛结果。其中结果集分为1为主队获胜,2为客队获胜,-1为平局。

52bc6c93733a8b599b18e156dbe80e85.png

此时,我们发现仅有主场客场比分并不能很好地分析每个队的实力,所以我们要进行数据统计,找出新的特征值来扩充数据集。

数据扩充

首先我们计算每个国家的参赛次数

71b26e0e1e2ff1c80536bdd7e3535477.png

合并后生成的tr_data_after.csv中内容为:主队、客队、主队参赛次数、客队参赛次数、主队胜利次数、客队胜利次数、主队进球数、客队进球数、主队胜率、客队胜率、主队场均进球、客队场均进球、比赛结果。

4954db7ba4f291eb69199772f7c6cf0b.png

d0ea6619f3e7eb3fc45bad85619ced81.png

179029bc0d5f0e8a614f886580cbf92d.png

数据预处理

efe2514dbc5ece95cfe399bb5c363974.png

其中标准分数(z-score)是一个分数与平均数的差再除以标准差的过程。
用公式表示为:z=(x-μ)/σ。
其中x为某一具体分数,μ为平均数,σ为标准差。

93b76e845eec1a34e9f2bc0229051e3e.png

预处理后的数据存放至play_score_normal.csv中:

274d27a73f07b4580c687aacfb91b097.png

机器学习模型

6a372e3728a92e19324caa66f66195bd.png

此处使用了神经网络、逻辑回归、支持向量机、决策树、随机森林算法分别进行训练。并输出其在训练集上的准确度、在测试集上的准确度以及平均绝对误差。

此时发现结果并不理想,准确度仅为六成左右。

误差原因分析:

(尝试方法一)分别输出以上机器学习算法的学习曲线:

143970c7a113cdc2e52e3b0e7cb2e98c.png

d75c3d6bcae117af8480e5cfcef91a45.png

9aa8c1ef1be2694168288e321923bb57.png

结果图上可以看出,随着数据量的增加,三组模型虽然趋近于收敛,但是在训练集和检验集上准确度表现都很差,仅有0.58左右。这预示着存在着很高的偏差,是欠拟合的表现。

决策树学习曲线:

ee01afc3eb8be7e1c960fe6e4f1045e5.png

决策树和随机森林出现了高方差情形,也就是过拟合的情况。这都预示着我们要找到正确率低原因,并且优化我们的模型。

(尝试方法二)输出灰色关联矩阵:

24ebc73bb8d9fdc47f7547cf50da8efe.png

统计出每个特征关联度的均值后,我们发现大部分的特征关联度都在0.738021~0.710410之间,也就是说大部分特征都与结果呈现出了相对较高的关联性。

这也意味着已有的数据源的特征关联度对之前模型的影响是有限的。

(尝试方法三)以上两种方法进一步缩小了误差原因,于是重新分析测试集与预测结果如图:

测试集:蓝色的*

预测结果:红色的o

发现在预测平局方面,算法预测结果有着较大的误差。于是我们推测由于结果集中的平局拉低了模型的准确度。

204083a08d525b6b83d258e710509bd7.png

进一步查询有关资料发现,我们所使用的决策树算法,随机森林算法,还有逻辑回归,都典型二分类的算法。而此时我们的结果集有三类。

我们重新检查数据源,发现平局的情况仅有199条,而仅凭借着这些较少数据量去很好的训练数据是不合适的。于是我们开始探讨简化结果集即去掉平局结果的可行性。

在充分了解世界杯的规则后,从16强开始,就意味着告别了小组赛,开始了淘汰赛。如遇到平局,就开始加时赛以及点球大战。即比赛结果只有胜负两种结果。而数据集中的比赛结果是将点球大战排除在外的90分钟内的比赛结果。所以含有平局的情况。

模型改良

将play_score_normal.csv中所有的结果集为-1(即平局的数据去掉)

重新采用上述机器学习算法进行训练学习。

训练结果如下:

神经网络:

  • 训练集准确度:0.570

  • 测试集准确度:0.570

  • 平均绝对误差: 0.5740740740740741

逻辑回归:

  • 训练集准确度:0.554

  • 测试集准确度:0.622

  • 平均绝对误差: 0.5296296296296297

决策树:

  • 训练集准确度:0.894

  • 测试集准确度:0.407

  • 平均绝对误差: 0.8074074074074075

随机森林:

  • 训练集准确度:0.894

  • 测试集准确度:0.485

  • 平均绝对误差: 0.7111111111111111

SVM支持向量机:

  • 训练集准确度:0.592

  • 测试集准确度:0.530

  • 平均绝对误差: 0.6222222222222222

由上可见,准确度有了略微的提升,但这还不是我们想要达到的准确度。于是我们继续研究,并尝试使用深度学习算法继续提升模型的准确度。

深度神经网络

于是我们使用了Sequential模型,它是多个网络层的线性堆叠,通过堆叠许多层,构建出深度神经网络。

5800d43a9f79f93932b07bacf9377d35.png

5249d03e443422cc725a9e7c126063d8.png

正确率已经能够到达92%。但需要进一步的调参,找到更合适的参数,防止过拟合。

接下来我们暂时用此模型,对世界杯的结果进行模拟预测。

冠军预测

对于2022年的16强队的选择,考虑到近几年球队的数据更能反映出该球队的状态,于是我们统计了近几年(2002-2018)年共5次世界杯进入16强次数最多的队伍。

从16支队伍里面随机选中8支队伍,分为两队:

d5e4012fcdbbc22820f3f4633eceb5f0.png

从数据集里面找到这16支队伍相对应的数据:

dd2b37f66fe8c65d69f0c8211144fbea.png

比赛的两支队伍的数据进行合并用作待预测数据,并使用深度学习算法进行预测:

4395edbe5e357e6e903f069384474f48.png

6562e943ad13922a6f4c16f208c54009.png

b96872b4d03c830798bcfbc60fe89e20.png

b6fae943bee208b9f321331a530b9662.png

代码+数据集在公众号Python小二后台回复世界杯获取~

以上预测结果仅为参考,原因如下:

1、数据量较少。

2、小组赛是由抽签结果确定的,而且分为了各个地区(如亚洲区、欧州区),抽签的结果无法预测,即每个队伍有特定地区的对手,且是由抽签决定的。

3、本预测结果16强队均为历史上进入16强次数最多的队伍,且比赛时为两两随机比赛,而真正进入世界杯16强队伍中会有很多“黑马”杀入,并且有很多洲际规则需要考虑。

若要真正预测结果,则需等待小组分组结果后,决出16强或32强。这样会比较然后将其球队数据代入,最终决出冠军。

  • 👉 Python 毕设实战项目

  • 👉 Python 练手必备神器

  • 👉 Python 爬虫实战必备神器

这篇关于YYDS!用Python预测了世界杯冠军的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/736919

相关文章

Python 迭代器和生成器概念及场景分析

《Python迭代器和生成器概念及场景分析》yield是Python中实现惰性计算和协程的核心工具,结合send()、throw()、close()等方法,能够构建高效、灵活的数据流和控制流模型,这... 目录迭代器的介绍自定义迭代器省略的迭代器生产器的介绍yield的普通用法yield的高级用法yidle

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

Python基础语法中defaultdict的使用小结

《Python基础语法中defaultdict的使用小结》Python的defaultdict是collections模块中提供的一种特殊的字典类型,它与普通的字典(dict)有着相似的功能,本文主要... 目录示例1示例2python的defaultdict是collections模块中提供的一种特殊的字

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析

基于Python实现高效PPT转图片工具

《基于Python实现高效PPT转图片工具》在日常工作中,PPT是我们常用的演示工具,但有时候我们需要将PPT的内容提取为图片格式以便于展示或保存,所以本文将用Python实现PPT转PNG工具,希望... 目录1. 概述2. 功能使用2.1 安装依赖2.2 使用步骤2.3 代码实现2.4 GUI界面3.效

Python获取C++中返回的char*字段的两种思路

《Python获取C++中返回的char*字段的两种思路》有时候需要获取C++函数中返回来的不定长的char*字符串,本文小编为大家找到了两种解决问题的思路,感兴趣的小伙伴可以跟随小编一起学习一下... 有时候需要获取C++函数中返回来的不定长的char*字符串,目前我找到两种解决问题的思路,具体实现如下:

python连接本地SQL server详细图文教程

《python连接本地SQLserver详细图文教程》在数据分析领域,经常需要从数据库中获取数据进行分析和处理,下面:本文主要介绍python连接本地SQLserver的相关资料,文中通过代码... 目录一.设置本地账号1.新建用户2.开启双重验证3,开启TCP/IP本地服务二js.python连接实例1.

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

Python从零打造高安全密码管理器

《Python从零打造高安全密码管理器》在数字化时代,每人平均需要管理近百个账号密码,本文将带大家深入剖析一个基于Python的高安全性密码管理器实现方案,感兴趣的小伙伴可以参考一下... 目录一、前言:为什么我们需要专属密码管理器二、系统架构设计2.1 安全加密体系2.2 密码强度策略三、核心功能实现详解

Python Faker库基本用法详解

《PythonFaker库基本用法详解》Faker是一个非常强大的库,适用于生成各种类型的伪随机数据,可以帮助开发者在测试、数据生成、或其他需要随机数据的场景中提高效率,本文给大家介绍PythonF... 目录安装基本用法主要功能示例代码语言和地区生成多条假数据自定义字段小结Faker 是一个 python