10个得心应手的数据网站,助你完成数据科学项目

2023-12-25 23:50

本文主要是介绍10个得心应手的数据网站,助你完成数据科学项目,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文将介绍10个获取所需数据的网站,助力数据科学项目。

微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩

图片

当你的数据对你来说很枯燥或毫无意义时,要激励自己学习数据科学,或做数据科学项目真的很困难。

本文将介绍10个得心应手的网站,在这些网站上你可以为数据科学项目获取一些非常棒的数据。本文的目的是为了展示各种可能吸引你的数据。最终,这些网站应该能帮助你找到你关心的数据,做一个很酷的数据科学项目,并以此来获得一份工作。

如何审查数据源?

如果你在本文中看到一个网站,那是因为它包含的数据是:

  • 免费提供。你不需要为它付费。

  • 面向社区。它不仅仅是一个文件;会有一些评论和解释。

  • 干净的。你可以练习数据科学的有趣部分——分析、可视化、共享等等。

  • 与语言无关。你可以用Python、R、SQL或你喜欢的任何其他语言来深入研究这些内容。

10个网站为你的数据科学项目获取很棒的数据

让我们来挖掘一下最好的网站,以找到你真正关心并想用数据科学来探索的数据。

网站特点
Google Dataset Search超级广泛,质量不一
Kaggle更为有限,但有很多背景和社区
KDNuggets专门针对AI、ML、数据科学的网站
Government websites种类繁多,学习资源丰富
Pudding.cool流行文化、散文
538体育、政治、清洁数据
Tidy Tuesdays混乱的数据,伟大的社区
GitHub大量的可搜索数据,有评论,质量不一
Buzzfeed流行文化、散文、严谨的科学
Awesome Public Datasets种类繁多,只有数据集,没有评论

1. Google’s Dataset Search

链接:https://datasetsearch.research.google.com/

实际上这并不是一个真正的数据集的网站,而是一个数据集的搜索引擎。但它太好了,必须包括在内。

Google的数据集搜索就像Google一样,但针对的是数据集。你输入你的查询,Google就会返回它所拥有的关于该主题的尽可能多的数据集。

例如,搜索“猫”会给我带来一百多个数据集,其中一个数据集包含9000多张猫的图像。

图片

来源:Google Dataset Search

推荐这个网站的原因:

  • 它的用途超级广泛。你几乎肯定会找到你关心的东西。

  • 它是即时适用的。这个网站包括其他使用过这个数据集的论文,所以你可以看到其他人已经用这个数据做了什么有趣的事情。

  • 你可以切换到只包括免费数据集。

  • 它为你提取了背景,所以你会得到一些关于这个数据集是什么以及为什么收集它的解释。

这是一个很好的开始。

2. Kaggle

链接:https://www.kaggle.com/datasets

Kaggle的Datasets也是一个搜索引擎,但它的局限性更大,也更有针对性。

它更有局限性,因为它只包含人们在Kaggle发布的数据集。但它更有针对性,因为这些数据集并不是Google随意搜罗的数字集。Kaggle是一个数据科学竞赛的场所,所以它收集的数据集与数据科学极为相关。

这使得你可以根据自己的特定兴趣进行筛选。例如,如果我在启用“计算机视觉”过滤器的情况下搜索“猫”,我可能会偶然发现同一个猫数据集。

图片

来源:Kaggle Datasets

推荐这个网站的原因:

  • 社区方面是如此强大。点击那只猫的数据集,可以看到其他六个人在询问关于这个数据集的问题——并且得到了答案。

  • 很多示例项目。你还可以看到其他人围绕这个数据建立或编码的内容。

  • 你也可以反其道而行之——查看他们的比赛,看看是否有你感兴趣的东西,然后使用配套的数据集。

3. KDNuggets

链接:kdnuggets.com/datasets/index.html

KDNuggets策划了一套庞大的数据集,这些数据集专门用于数据科学、机器学习、AI和分析,非常好用。

其中许多不是KDNuggets的独家产品,但这是一个很好的列表,可以在其中探究。值得注意的是,当你注册成为KDNuggets的电子邮件订阅者时,你也可以访问World Data AI(https://worlddata.ai/partners/kdnuggets),它本身包含35亿个数据集。

图片

来源:KDnuggets Datasets

推荐这个网站的原因:

  • 专门针对数据科学的数据。这些数据集中有许多是为其他目的而策划的,但这些数据集都是专门为AI、机器学习和数据科学而设的。

  • 对每个数据集的快速描述。仅仅是一点点的背景,以帮助你决定它是否是适合你的数据集。

4. Government websites

可以很容易地将获取政务数据集的网站清单扩大到大约一百万个,这里提供一个小清单:

  • http://datasf.org/

  • http://data.gov.uk

  • https://www.usa.gov/About/developer-resources/1usagov.shtml

  • https://www.census.gov/data/datasets.html

各国政府不断收集数据进行研究,其中许多政府在网上公布这些数据。

图片

推荐这些网站的原因:

  • 这些数据是用于研究的,所以它通常是相当干净和有组织的。

  • 这些数据有一个真实的使用案例。有人为了一个真正的、与政府有关的真实原因而收集它。

  • 这通常是非常最新的数据。

  • 围绕着这些数据往往有一些很酷的故事。

  • 许多政府已经投入资源向你展示如何访问或使用这些数据,如人口普查局。

5. Pudding.cool

链接:https://pudding.cool/2023/01/lit-canon/

如果你喜欢让数据紧随流行文化,那么Pudding.cool就是最佳选择。这个网站关注的话题多种多样,如重复的流行歌词、女性的口袋,以及《生活大爆炸》多么受欢迎。

这更像是一本数字杂志,撰写关于文化的长篇文章,同时在旁边展示大量的数据。我把它放在这里,是因为他们讲述了很棒的故事并分享了他们的数据。

图片

来源:The Pudding

推荐这个网站的原因:

  • 很棒且有趣的数据。

  • 分享数据和脚本。

  • 很多你可能关心的东西都是IRL。

6. 538

链接:https://data.fivethirtyeight.com/

另一个以论文为导向的流行文化网站,提供你可以使用的免费数据。他们更专注于体育和政务。

图片

来源:FiveThirtyEight Data

推荐这个网站的原因:

  • 有数据支持的智能故事,你可以深入研究。

  • 数据采用干净的CSV格式。

  • 数据来源高度可靠。

7. Tidy Tuesdays

链接:https://github.com/rfordatascience/tidytuesday

Tidy Tuesdays本身并不完全是一个包含数据集的网站,但它是一个每周一次的活动和社区,重点是使用数据科学来探索杂乱的数据。

每周都会推出一个新的数据集。鼓励参与者在GitHub和Twitter上互相分享他们的清理技术和可视化效果。

图片

来源:TidyTuesday GitHub

推荐这个网站的原因:

  • 这个社区是令人难以置信的。每周你都能学到新东西。

  • 它是如此方便。不用去寻找数据集,获取每周的投放。

  • 具有挑战性的、不整齐的数据。你在IRL中得到的数据很少会像这个列表中的其他数据那样经过消毒处理。Tidy Tuesdays帮助你学习如何处理混乱的数据。

8. GitHub

链接:https://github.com/

GitHub上有大量数据。你可以很轻松地搜索、过滤和下载数据,以便自己使用。然而,数据的质量参差不齐。因为任何人都可以上传数据,所以数据的状况并不总是很好。

但是,我觉得它的好处弥补了这一点。

图片

来源:GitHub Cat Data

推荐这个网站的原因:

  • 你可以按语言过滤,如Python、Javascript或其他语言。

  • 这里有大量的数据。

  • 通常这些数据都带有某种评论或代码,你可以查看。

9. Buzzfeed

链接:https://github.com/BuzzFeedNews

Buzzfeed并不只是做一些通过让你做salad来评论人类状况的测验。Buzzfeed可能在这方面不那么出名,但Buzzfeed做了很多高质量的数据新闻。

这也都是开源的。

图片

来源:BuzzFeed News GitHub

推荐这个网站的原因:

  • 有趣的数据,经过预先清理,并以文章的形式附上精心编写的评论。

  • 较重的话题。这里强调的是更复杂的话题,例如政治和健康,但也有很多其他话题。

10. Awesome Public Datasets

链接:https://github.com/awesomedata/awesome-public-datasets

Awesome Public Datasets位于GitHub上,包含了(大部分)免费的数据集,供人们探索。它们来自在线数据集、用户建议和研究论文。

图片

来源:Awesome Public Datasets GitHub

推荐这个网站的原因:

  • 主题种类繁多。农业、金融、博物馆。你一定能找到让你心动的东西。

  • 精心策划的。数据集的质量很高。

这些网站提供很棒的数据科学数据集

深入挖掘,你不仅可以利用数据,而且还可以利用社区、灵感和代码来学习和成长为一名数据科学家。

有了如此大量的可用数据,你可以始终寻找那些能激发你的灵感或能够让你兴奋地去调查的数据。希望这个清单能给你一些起点来做到这一点。

推荐书单

《Python数据分析从入门到精通》

《Python数据分析从入门到精通》全面介绍了使用Python进行数据分析所必需的各项知识。全书共分为14章,包括了解数据分析、搭建Python数据分析环境、Pandas统计分析、Matplotlib可视化数据分析图表、Seaborn可视化数据分析图表、第三方可视化数据分析图表Pyecharts、图解数组计算模块NumPy、数据统计分析案例、机器学习库Scikit-Learn、注册用户分析(MySQL版)、电商销售数据分析与预测、二手房房价分析与预测,以及客户价值分析。

该书所有示例、案例和实战项目都提供源码,另外该书的服务网站提供了模块库、案例库、题库、素材库、答疑服务,力求为读者打造一本“基础入门+应用开发+项目实战”一体化的Python数据分析图书。

《Python数据分析从入门到精通》内容详尽,图文丰富,非常适合作为数据分析人员的学习参考用书,也可作为想拓展数据分析技能的普通职场人员和Python开发人员学习参考用书。

购买链接:https://item.jd.com/13288736.html

图片

精彩回顾

《数据分析实战,用Python热力图分析房地产市场》

《对于非结构化数据,EDA探索性数据分析该怎么做?》

《数据分析实战,用Pandas分析二手车市场行情》

《学习效率翻倍,用ChatGPT来学习SQL数据分析》

《11个超级实用的Pandas函数(下)》

《11个超级实用的Pandas函数(上)》

微信搜索关注《Python学研大本营》,加入读者群

访问【IT今日热榜】,发现每日技术热点

这篇关于10个得心应手的数据网站,助你完成数据科学项目的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/537412

相关文章

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

一文教你如何将maven项目转成web项目

《一文教你如何将maven项目转成web项目》在软件开发过程中,有时我们需要将一个普通的Maven项目转换为Web项目,以便能够部署到Web容器中运行,本文将详细介绍如何通过简单的步骤完成这一转换过程... 目录准备工作步骤一:修改​​pom.XML​​1.1 添加​​packaging​​标签1.2 添加

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

tomcat多实例部署的项目实践

《tomcat多实例部署的项目实践》Tomcat多实例是指在一台设备上运行多个Tomcat服务,这些Tomcat相互独立,本文主要介绍了tomcat多实例部署的项目实践,具有一定的参考价值,感兴趣的可... 目录1.创建项目目录,测试文China编程件2js.创建实例的安装目录3.准备实例的配置文件4.编辑实例的

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

SpringBoot使用OkHttp完成高效网络请求详解

《SpringBoot使用OkHttp完成高效网络请求详解》OkHttp是一个高效的HTTP客户端,支持同步和异步请求,且具备自动处理cookie、缓存和连接池等高级功能,下面我们来看看SpringB... 目录一、OkHttp 简介二、在 Spring Boot 中集成 OkHttp三、封装 OkHttp

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

springboot集成Deepseek4j的项目实践

《springboot集成Deepseek4j的项目实践》本文主要介绍了springboot集成Deepseek4j的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录Deepseek4j快速开始Maven 依js赖基础配置基础使用示例1. 流式返回示例2. 进阶

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个