开源数据集的获取不该成为你的阻塞项

2024-01-01 17:04

本文主要是介绍开源数据集的获取不该成为你的阻塞项,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • B站:啥都会一点的研究生
  • 公众号:啥都会一点的研究生

当可获取的数据有限,公共的开源数据集将是不错的选择

很多人并不知道该如何获取最权威的官方数据,亦或是不清楚有哪些数据集能为之所用,最适合自己的任务场景

不用急,本篇整理了5个获取数据集的方法且在文章的最后还准备了大招

告诉大家如何直接检测数据集,一一陈列出最相关结果,导师不管你,有人管

kaggle

kaggle是一个为开发商和数据科学家提供举办数据科学竞赛、托管数据库、编写和分享代码的在线平台

图片

https://www.kaggle.com/

进入 kaggle官网。可以发现有Compete,Datasets,Code,Discussions,Courses等其他板块

在 Kaggle 中,可以找到完成数据科学工作所需的所有代码和数据。使用超过 50,000 个公共数据集和 400,000 个公共笔记说明解决与征服任何分析问题

在搜索栏下方有准备一些常用分支的词条,当不知道挑选什么数据集作为先验或扩增时可以慢慢浏览,有十多万个数据集供大家挑选

此外,如果你有明确的目的,那么可以直接使用关键词搜索,并且在高级过滤功能中还可以选择数据集大小与数据类型等

以2022FIFA数据集为例,进入数据集后,有作者对该数据集的简介,数据划分依据和内容说明,比如这个数据集按小组划分,小组内包含各国家

图片

国家中以球员姓名的子文件夹下包含对应球员图片,拥有830个类别共计四万一千张图片

可以清晰的看到数据组织形式,此外有的还将提供代码全程指导如何利用这个数据集

paper with code

这个网站建议每个从事于人工智能领域的同学都将其添加至常用中

图片

https://paperswithcode.com/

该网站搜集了大量最新和过往各领域论文及对应代码,最主要的是可以找寻目前某领域内最好的,也就是常说的sota论文及其code实现

说到正题,我们进入dataset板块,可以看到可以根据数据形态进入如图片、文本、视频等模块寻找数据集

图片

也可以根据任务进入如目标检测、姿态估计、文本分类等模块

还可以按语言进行过滤,同样的也可以直接进行关键词搜索

进入指定数据集后会提供论文地址,最重要的是基于该数据集上不同任务的sota也可以查询到,不仅拿到了数据集,还可以学习sota论文

roboflow

号称拥有世界上最大的计算机视觉开源数据集与API

图片

https://roboflow.com/

包含十一万数据集,一亿张图像以及一万多个预训练模型

其提供的板块均与计算机视觉相关,且数据集均由图像组成

Roboflow提供将原始图像转换为自定义训练的计算机视觉模型并将其部署应用的所有工具

你可以在这里实现标注、转换、预处理、增强等功能,也是YOLOv5官方推介的网站

图片

很有意思的是当进入某个指定的数据集后,可以在线尝试基于该数据集的预训练模型检测效果

无需任何操作,只需选择本地数据即可,可以是单张图片、视频、图片或视频的链接及本地摄像头

此外,也可以浏览某些基于该数据集的训练、验证、测试效果

点击下载数据集时,也支持适配不同任务甚至是不同模型的格式,非常贴心,非常强大

Mendeley Data

图片

https://data.mendeley.com/

读研那会我的英文文献都是用mendeley进行管理,以前爱斯维尔下的期刊投稿时,有的期刊投稿指南也会推介使用该工具

在导出参考文献时方便迅速制作成该期刊指定的格式,但很多人不知道的是其实它有自己的数据管理库

包含了将近七万个数据集,此外诸如图片、文本、音频甚至是代码与软件都有提供,均与某项研究强相关

所以该数据库专业性将更上一个层次,如果选择将数据集存放于此,将拥有独特的 DOI 和易于使用的引用工具使得轻松引用自己的研究数据

最重要的是支持白嫖,每个数据集有作者的介绍,可以直接一键打包下载,甚至都不用登录账号

IEEEDataPort

图片

https://www.ieee.org/

IEEE相信每个科研人员都不陌生,没错,他自己也有数据平台,其中就包含了数据集

可以看到它也按方向分了许多大类,也可以通过关键词、作者、摘要、DOI进行检索,和Mendeley一样,数据集的专业性强

但与前面几个不同的是,它是付费的,如果你的研究与某个数据集强相关,可以考虑,其实前四个已经可以满足绝大多数需求了,还是白嫖最舒服

但我相信你们不会白嫖这篇文章对吧

google dataset search

最后就来说说我认为超有用的数据集检索方式

图片

https://datasetsearch.research.google.com/

和正常搜索操作一样,只需搜索关键字,就能在网络上发现托管在数千个存储区中的数据集,使数据集能供用户普遍访问并发挥作用

比如我们搜索mask这个关键词,一系列和它相关的数据集被一一陈列在左侧,诸如前面提的kaggle、roboflow均包含在其中

图片

还有许多其他我未提及的网站都被检索出来,任意选择一个,右边将陈列与该数据集相关的如最近一次更新日期、作者、摘要等信息

且给出了原链接,点击可直接跳转,非常方便

不希望公开数据资源的获取能成为各位的阻塞项,以上就是本期的全部内容,我是啥都生,下期再见

这篇关于开源数据集的获取不该成为你的阻塞项的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/559928

相关文章

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

MySQL中删除重复数据SQL的三种写法

《MySQL中删除重复数据SQL的三种写法》:本文主要介绍MySQL中删除重复数据SQL的三种写法,文中通过代码示例讲解的非常详细,对大家的学习或工作有一定的帮助,需要的朋友可以参考下... 目录方法一:使用 left join + 子查询删除重复数据(推荐)方法二:创建临时表(需分多步执行,逻辑清晰,但会

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

不删数据还能合并磁盘? 让电脑C盘D盘合并并保留数据的技巧

《不删数据还能合并磁盘?让电脑C盘D盘合并并保留数据的技巧》在Windows操作系统中,合并C盘和D盘是一个相对复杂的任务,尤其是当你不希望删除其中的数据时,幸运的是,有几种方法可以实现这一目标且在... 在电脑生产时,制造商常为C盘分配较小的磁盘空间,以确保软件在运行过程中不会出现磁盘空间不足的问题。但在

python获取当前文件和目录路径的方法详解

《python获取当前文件和目录路径的方法详解》:本文主要介绍Python中获取当前文件路径和目录的方法,包括使用__file__关键字、os.path.abspath、os.path.realp... 目录1、获取当前文件路径2、获取当前文件所在目录3、os.path.abspath和os.path.re

Java如何接收并解析HL7协议数据

《Java如何接收并解析HL7协议数据》文章主要介绍了HL7协议及其在医疗行业中的应用,详细描述了如何配置环境、接收和解析数据,以及与前端进行交互的实现方法,文章还分享了使用7Edit工具进行调试的经... 目录一、前言二、正文1、环境配置2、数据接收:HL7Monitor3、数据解析:HL7Busines