开源数据集的获取不该成为你的阻塞项

2024-01-01 17:04

本文主要是介绍开源数据集的获取不该成为你的阻塞项,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • B站:啥都会一点的研究生
  • 公众号:啥都会一点的研究生

当可获取的数据有限,公共的开源数据集将是不错的选择

很多人并不知道该如何获取最权威的官方数据,亦或是不清楚有哪些数据集能为之所用,最适合自己的任务场景

不用急,本篇整理了5个获取数据集的方法且在文章的最后还准备了大招

告诉大家如何直接检测数据集,一一陈列出最相关结果,导师不管你,有人管

kaggle

kaggle是一个为开发商和数据科学家提供举办数据科学竞赛、托管数据库、编写和分享代码的在线平台

图片

https://www.kaggle.com/

进入 kaggle官网。可以发现有Compete,Datasets,Code,Discussions,Courses等其他板块

在 Kaggle 中,可以找到完成数据科学工作所需的所有代码和数据。使用超过 50,000 个公共数据集和 400,000 个公共笔记说明解决与征服任何分析问题

在搜索栏下方有准备一些常用分支的词条,当不知道挑选什么数据集作为先验或扩增时可以慢慢浏览,有十多万个数据集供大家挑选

此外,如果你有明确的目的,那么可以直接使用关键词搜索,并且在高级过滤功能中还可以选择数据集大小与数据类型等

以2022FIFA数据集为例,进入数据集后,有作者对该数据集的简介,数据划分依据和内容说明,比如这个数据集按小组划分,小组内包含各国家

图片

国家中以球员姓名的子文件夹下包含对应球员图片,拥有830个类别共计四万一千张图片

可以清晰的看到数据组织形式,此外有的还将提供代码全程指导如何利用这个数据集

paper with code

这个网站建议每个从事于人工智能领域的同学都将其添加至常用中

图片

https://paperswithcode.com/

该网站搜集了大量最新和过往各领域论文及对应代码,最主要的是可以找寻目前某领域内最好的,也就是常说的sota论文及其code实现

说到正题,我们进入dataset板块,可以看到可以根据数据形态进入如图片、文本、视频等模块寻找数据集

图片

也可以根据任务进入如目标检测、姿态估计、文本分类等模块

还可以按语言进行过滤,同样的也可以直接进行关键词搜索

进入指定数据集后会提供论文地址,最重要的是基于该数据集上不同任务的sota也可以查询到,不仅拿到了数据集,还可以学习sota论文

roboflow

号称拥有世界上最大的计算机视觉开源数据集与API

图片

https://roboflow.com/

包含十一万数据集,一亿张图像以及一万多个预训练模型

其提供的板块均与计算机视觉相关,且数据集均由图像组成

Roboflow提供将原始图像转换为自定义训练的计算机视觉模型并将其部署应用的所有工具

你可以在这里实现标注、转换、预处理、增强等功能,也是YOLOv5官方推介的网站

图片

很有意思的是当进入某个指定的数据集后,可以在线尝试基于该数据集的预训练模型检测效果

无需任何操作,只需选择本地数据即可,可以是单张图片、视频、图片或视频的链接及本地摄像头

此外,也可以浏览某些基于该数据集的训练、验证、测试效果

点击下载数据集时,也支持适配不同任务甚至是不同模型的格式,非常贴心,非常强大

Mendeley Data

图片

https://data.mendeley.com/

读研那会我的英文文献都是用mendeley进行管理,以前爱斯维尔下的期刊投稿时,有的期刊投稿指南也会推介使用该工具

在导出参考文献时方便迅速制作成该期刊指定的格式,但很多人不知道的是其实它有自己的数据管理库

包含了将近七万个数据集,此外诸如图片、文本、音频甚至是代码与软件都有提供,均与某项研究强相关

所以该数据库专业性将更上一个层次,如果选择将数据集存放于此,将拥有独特的 DOI 和易于使用的引用工具使得轻松引用自己的研究数据

最重要的是支持白嫖,每个数据集有作者的介绍,可以直接一键打包下载,甚至都不用登录账号

IEEEDataPort

图片

https://www.ieee.org/

IEEE相信每个科研人员都不陌生,没错,他自己也有数据平台,其中就包含了数据集

可以看到它也按方向分了许多大类,也可以通过关键词、作者、摘要、DOI进行检索,和Mendeley一样,数据集的专业性强

但与前面几个不同的是,它是付费的,如果你的研究与某个数据集强相关,可以考虑,其实前四个已经可以满足绝大多数需求了,还是白嫖最舒服

但我相信你们不会白嫖这篇文章对吧

google dataset search

最后就来说说我认为超有用的数据集检索方式

图片

https://datasetsearch.research.google.com/

和正常搜索操作一样,只需搜索关键字,就能在网络上发现托管在数千个存储区中的数据集,使数据集能供用户普遍访问并发挥作用

比如我们搜索mask这个关键词,一系列和它相关的数据集被一一陈列在左侧,诸如前面提的kaggle、roboflow均包含在其中

图片

还有许多其他我未提及的网站都被检索出来,任意选择一个,右边将陈列与该数据集相关的如最近一次更新日期、作者、摘要等信息

且给出了原链接,点击可直接跳转,非常方便

不希望公开数据资源的获取能成为各位的阻塞项,以上就是本期的全部内容,我是啥都生,下期再见

这篇关于开源数据集的获取不该成为你的阻塞项的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/559928

相关文章

golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法

《golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法》:本文主要介绍golang获取当前时间、时间戳和时间字符串及它们之间的相互转换,本文通过实例代码给大家介绍的非常详细,感兴趣... 目录1、获取当前时间2、获取当前时间戳3、获取当前时间的字符串格式4、它们之间的相互转化上篇文章给大家介

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

微信公众号脚本-获取热搜自动新建草稿并发布文章

《微信公众号脚本-获取热搜自动新建草稿并发布文章》本来想写一个自动化发布微信公众号的小绿书的脚本,但是微信公众号官网没有小绿书的接口,那就写一个获取热搜微信普通文章的脚本吧,:本文主要介绍微信公众... 目录介绍思路前期准备环境要求获取接口token获取热搜获取热搜数据下载热搜图片给图片加上标题文字上传图片

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

使用Python实现获取网页指定内容

《使用Python实现获取网页指定内容》在当今互联网时代,网页数据抓取是一项非常重要的技能,本文将带你从零开始学习如何使用Python获取网页中的指定内容,希望对大家有所帮助... 目录引言1. 网页抓取的基本概念2. python中的网页抓取库3. 安装必要的库4. 发送HTTP请求并获取网页内容5. 解

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个