开源数据集的获取不该成为你的阻塞项

2024-01-01 17:04

本文主要是介绍开源数据集的获取不该成为你的阻塞项,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • B站:啥都会一点的研究生
  • 公众号:啥都会一点的研究生

当可获取的数据有限,公共的开源数据集将是不错的选择

很多人并不知道该如何获取最权威的官方数据,亦或是不清楚有哪些数据集能为之所用,最适合自己的任务场景

不用急,本篇整理了5个获取数据集的方法且在文章的最后还准备了大招

告诉大家如何直接检测数据集,一一陈列出最相关结果,导师不管你,有人管

kaggle

kaggle是一个为开发商和数据科学家提供举办数据科学竞赛、托管数据库、编写和分享代码的在线平台

图片

https://www.kaggle.com/

进入 kaggle官网。可以发现有Compete,Datasets,Code,Discussions,Courses等其他板块

在 Kaggle 中,可以找到完成数据科学工作所需的所有代码和数据。使用超过 50,000 个公共数据集和 400,000 个公共笔记说明解决与征服任何分析问题

在搜索栏下方有准备一些常用分支的词条,当不知道挑选什么数据集作为先验或扩增时可以慢慢浏览,有十多万个数据集供大家挑选

此外,如果你有明确的目的,那么可以直接使用关键词搜索,并且在高级过滤功能中还可以选择数据集大小与数据类型等

以2022FIFA数据集为例,进入数据集后,有作者对该数据集的简介,数据划分依据和内容说明,比如这个数据集按小组划分,小组内包含各国家

图片

国家中以球员姓名的子文件夹下包含对应球员图片,拥有830个类别共计四万一千张图片

可以清晰的看到数据组织形式,此外有的还将提供代码全程指导如何利用这个数据集

paper with code

这个网站建议每个从事于人工智能领域的同学都将其添加至常用中

图片

https://paperswithcode.com/

该网站搜集了大量最新和过往各领域论文及对应代码,最主要的是可以找寻目前某领域内最好的,也就是常说的sota论文及其code实现

说到正题,我们进入dataset板块,可以看到可以根据数据形态进入如图片、文本、视频等模块寻找数据集

图片

也可以根据任务进入如目标检测、姿态估计、文本分类等模块

还可以按语言进行过滤,同样的也可以直接进行关键词搜索

进入指定数据集后会提供论文地址,最重要的是基于该数据集上不同任务的sota也可以查询到,不仅拿到了数据集,还可以学习sota论文

roboflow

号称拥有世界上最大的计算机视觉开源数据集与API

图片

https://roboflow.com/

包含十一万数据集,一亿张图像以及一万多个预训练模型

其提供的板块均与计算机视觉相关,且数据集均由图像组成

Roboflow提供将原始图像转换为自定义训练的计算机视觉模型并将其部署应用的所有工具

你可以在这里实现标注、转换、预处理、增强等功能,也是YOLOv5官方推介的网站

图片

很有意思的是当进入某个指定的数据集后,可以在线尝试基于该数据集的预训练模型检测效果

无需任何操作,只需选择本地数据即可,可以是单张图片、视频、图片或视频的链接及本地摄像头

此外,也可以浏览某些基于该数据集的训练、验证、测试效果

点击下载数据集时,也支持适配不同任务甚至是不同模型的格式,非常贴心,非常强大

Mendeley Data

图片

https://data.mendeley.com/

读研那会我的英文文献都是用mendeley进行管理,以前爱斯维尔下的期刊投稿时,有的期刊投稿指南也会推介使用该工具

在导出参考文献时方便迅速制作成该期刊指定的格式,但很多人不知道的是其实它有自己的数据管理库

包含了将近七万个数据集,此外诸如图片、文本、音频甚至是代码与软件都有提供,均与某项研究强相关

所以该数据库专业性将更上一个层次,如果选择将数据集存放于此,将拥有独特的 DOI 和易于使用的引用工具使得轻松引用自己的研究数据

最重要的是支持白嫖,每个数据集有作者的介绍,可以直接一键打包下载,甚至都不用登录账号

IEEEDataPort

图片

https://www.ieee.org/

IEEE相信每个科研人员都不陌生,没错,他自己也有数据平台,其中就包含了数据集

可以看到它也按方向分了许多大类,也可以通过关键词、作者、摘要、DOI进行检索,和Mendeley一样,数据集的专业性强

但与前面几个不同的是,它是付费的,如果你的研究与某个数据集强相关,可以考虑,其实前四个已经可以满足绝大多数需求了,还是白嫖最舒服

但我相信你们不会白嫖这篇文章对吧

google dataset search

最后就来说说我认为超有用的数据集检索方式

图片

https://datasetsearch.research.google.com/

和正常搜索操作一样,只需搜索关键字,就能在网络上发现托管在数千个存储区中的数据集,使数据集能供用户普遍访问并发挥作用

比如我们搜索mask这个关键词,一系列和它相关的数据集被一一陈列在左侧,诸如前面提的kaggle、roboflow均包含在其中

图片

还有许多其他我未提及的网站都被检索出来,任意选择一个,右边将陈列与该数据集相关的如最近一次更新日期、作者、摘要等信息

且给出了原链接,点击可直接跳转,非常方便

不希望公开数据资源的获取能成为各位的阻塞项,以上就是本期的全部内容,我是啥都生,下期再见

这篇关于开源数据集的获取不该成为你的阻塞项的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/559928

相关文章

Python使用Pandas对比两列数据取最大值的五种方法

《Python使用Pandas对比两列数据取最大值的五种方法》本文主要介绍使用Pandas对比两列数据取最大值的五种方法,包括使用max方法、apply方法结合lambda函数、函数、clip方法、w... 目录引言一、使用max方法二、使用apply方法结合lambda函数三、使用np.maximum函数

如何利用Java获取当天的开始和结束时间

《如何利用Java获取当天的开始和结束时间》:本文主要介绍如何使用Java8的LocalDate和LocalDateTime类获取指定日期的开始和结束时间,展示了如何通过这些类进行日期和时间的处... 目录前言1. Java日期时间API概述2. 获取当天的开始和结束时间代码解析运行结果3. 总结前言在J

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

java获取图片的大小、宽度、高度方式

《java获取图片的大小、宽度、高度方式》文章介绍了如何将File对象转换为MultipartFile对象的过程,并分享了个人经验,希望能为读者提供参考... 目China编程录Java获取图片的大小、宽度、高度File对象(该对象里面是图片)MultipartFile对象(该对象里面是图片)总结java获取图片

Java通过反射获取方法参数名的方式小结

《Java通过反射获取方法参数名的方式小结》这篇文章主要为大家详细介绍了Java如何通过反射获取方法参数名的方式,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、前言2、解决方式方式2.1: 添加编译参数配置 -parameters方式2.2: 使用Spring的内部工具类 -

Java如何获取视频文件的视频时长

《Java如何获取视频文件的视频时长》文章介绍了如何使用Java获取视频文件的视频时长,包括导入maven依赖和代码案例,同时,也讨论了在运行过程中遇到的SLF4J加载问题,并给出了解决方案... 目录Java获取视频文件的视频时长1、导入maven依赖2、代码案例3、SLF4J: Failed to lo

Python给Excel写入数据的四种方法小结

《Python给Excel写入数据的四种方法小结》本文主要介绍了Python给Excel写入数据的四种方法小结,包含openpyxl库、xlsxwriter库、pandas库和win32com库,具有... 目录1. 使用 openpyxl 库2. 使用 xlsxwriter 库3. 使用 pandas 库

SpringBoot定制JSON响应数据的实现

《SpringBoot定制JSON响应数据的实现》本文主要介绍了SpringBoot定制JSON响应数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录前言一、如何使用@jsonView这个注解?二、应用场景三、实战案例注解方式编程方式总结 前言

使用Python在Excel中创建和取消数据分组

《使用Python在Excel中创建和取消数据分组》Excel中的分组是一种通过添加层级结构将相邻行或列组织在一起的功能,当分组完成后,用户可以通过折叠或展开数据组来简化数据视图,这篇博客将介绍如何使... 目录引言使用工具python在Excel中创建行和列分组Python在Excel中创建嵌套分组Pyt