数据下的奥运百年 | Kaggle数据研究

2023-12-18 02:50

本文主要是介绍数据下的奥运百年 | Kaggle数据研究,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=jpeg

编程狗在线

自由的编程学习平台

640?wx_fmt=jpeg

2018年雅加达亚运会转眼闭幕了,中国代表队以132枚金牌,289枚奖牌的绝对优势,一骑绝尘,独领风骚,毫无悬念地再次霸占了金牌榜和奖牌榜首位。既然,区区亚洲已经阻止不了中国队收割奖牌的步伐,那么我们这回放眼世界,来研究一下奥运会吧。


这次的数据来自于Kaggle,一份涵盖120年奥运会所有参赛记录和比赛结果的数据,十分完整。我想通过这份数据,发现一些有趣的东西。

640?wx_fmt=gif


1

哪些国家站在奥运之巅?


640?wx_fmt=jpeg

由于百年来历史、政治、战争等因素,数据会略有出入


上图数据统计了奥运总金牌数前十的国家。美国1035块金牌遥遥领先,而且也是目前唯一一个金牌数超过1000枚的国家;俄罗斯592枚次之,但俄罗斯的金牌数包括了当下与前苏联时期。金牌榜前五的其他国家——德国、英国、法国均在世界近现代历史上辉煌过或者仍然辉煌的国家。看来国家实力同样很大程度上影响了体育实力。


再来看看中国,以228枚金牌排名第6,但中国是从1984年才正式开始奥运征程的,所以从这点看,中国无疑是进步最快的国家。


640?wx_fmt=jpeg

奖牌榜和金牌榜的排名变化几乎不大,那些强大的一如既往的强大。中国退后了一个名次,以545枚奖牌名列第7。另外,中国、法国、英国、意大利金牌榜中差距不大,而奖牌榜中,中国与其他三国的差距被拉大了。看来,中国在综合实力方面还有待提高呀。


  • 百年奥运史 & 踊跃参赛的国家


1896年——2016年,四年一届的奥运会共应举办31届。由于战争、届间运动会等影响,到今天为止共有29届奥运会成功举办。那么哪些国家达成了全勤的成就呢?


希腊,法国,意大利,英国,瑞士——这五个国家参加了全部29届奥运会。而中国,只参加了其中的13届,最早能追溯到1932年。后来在1958到1980年间,由于某几个众所周知的原因缺席了奥运会。1984年重回奥运舞台之后,中国就一发不可收拾地开启了崛起之路。


2

哪些运动员最牛


研究完了国家,我们再来看看运动员。同样先上总金牌榜:

640?wx_fmt=jpeg

横轴起始有调整,下同


排名第一的是美国著名游泳运动员迈克尔·菲尔普斯,以23块金牌问鼎。对!就是那位游得飞快,但屡次因为酒驾,嗑药,赌博被停赛的那家伙。

640?wx_fmt=jpeg

值得一提的是排名第二位的运动员,坐拥奥运会10块金牌。名字叫雷·尤瑞。估计大家都没听过。因为年代比较久远,他参加了1900-1908年的四次奥运会,跳远选手。据说早年患上小儿麻痹症,终日需要轮椅活动,最后获得了10次奥运冠军。这真是一个励志的故事!

640?wx_fmt=jpeg


继续看奖牌榜:

640?wx_fmt=png

研究了一下,这些摘牌最多的运动员,绝大多数都是田径和游泳两大领域的。那么是不是田径和游泳是制霸奥运的关键?这个我们稍后研究。


  • 年龄最大的运动员:72岁仍参赛


Oscar Swahn:瑞典射击运动员,参加1920年比利时安特卫普奥运会,成为奥运历史上参赛年龄最大的运动员。获得过3金,1银,1铜。

Arthur von Pongracz:1936年参加柏林奥运会时,同样72岁,项目是花样骑术,啧啧~


3

得田泳者是否得奥运?


我们取近五届奥运会金牌榜霸主美、中、俄三国的数据,分析在每个国家夺得的金牌数中,田泳项目占比有多高。


640?wx_fmt=jpeg

果然,美国队田泳项目占其金牌总数的60%左右。而俄罗斯,其田泳项目对金牌数的贡献逐届增加,至于2016年的“零”!那是因为被禁赛了。至于中国,从往届来看貌似田泳向来不是强项。结果说明,田泳项目由于奖牌产量大,确实对总成绩有不小的贡献。但也并不是绝对,奥运会毕竟是一个综合性的体育比赛。


4

主场优势真的存在吗


这里取近9届奥运会主办国的表现来观察。统计其主办届及前后两届,共三次奥运会的金牌数:

640?wx_fmt=jpeg

折线图呈现中间高过两边的三角形,说明作为东道主成绩确实好过以往,甚至有的有超过50%的提升。所以,主场优势是真的存在的。


题外话:第五、第六张图,出现了两个数据为0的极端值。然后我发现主办国是美国和苏联。呵呵~我的历史老师告诉我,当初两个国家在冷战,而期间,双方又各举办了一届奥运会,对方的奥运会当然是不可能去捧场的……


5

中国的奥运会足迹


640?wx_fmt=jpeg

从1984年首次参赛以来,一直在进步。巅峰为2008年北京奥运会,坐拥主场,获得了100枚奖牌。在2016年,出现了明显的滑铁卢,主要是金牌方面。


  • 中国的“梦之队”


有些项目一直以来都是中国摘金夺银的有力保障,我们把这些强势项目的团队称之为“梦之队”。我们来看看中国有哪些“梦之队”。


下图分别统计金牌数和奖牌数:

640?wx_fmt=png

640?wx_fmt=png

最强大的无疑是中国跳水梦之队,几乎可以摘得每届奥运会所有的金银牌,而跳水运动项目又十分多。其次,乒乓球,这个项目同样天下无敌,可惜项目少了点,所以奖牌也少了点。同样还有体操,射击,举重等,中国都曾不同程度地制霸赛场。所以,相比于老牌强队专注于田泳,中国的奥运之路乃是遍地开花,而且哪怕是田径和游泳,目前也走上了崛起之路。


我们相信在不久的将来,中国终将会站上奥运之巅,睥睨天下。


点击此处进入Python编程学习


本文作者

李小文:先后从事过数据分析、数据挖掘工作,主要开发语言是Python,现任一家小型互联网公司的算法工程师。Github: https://github.com/tushushu


投稿邮箱:pythonpost@163.com

欢迎点击申请Python中文社区新专栏作者计划


640?wx_fmt=gif

Python中文社区作为一个去中心化的全球技术社区,以成为全球20万Python中文开发者的精神部落为愿景,目前覆盖各大主流媒体和协作平台,与阿里、腾讯、百度、微软、亚马逊、开源中国、CSDN等业界知名公司和技术社区建立了广泛的联系,拥有来自十多个国家和地区数万名登记会员,会员来自以公安部、工信部、清华大学、北京大学、北京邮电大学、中国人民银行、中科院、中金、华为、BAT、谷歌、微软等为代表的政府机关、科研单位、金融机构以及海内外知名公司,全平台近20万开发者关注。

640?wx_fmt=jpeg

▼ 点击下方阅读原文免费成为社区会员

这篇关于数据下的奥运百年 | Kaggle数据研究的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/506789

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者