Open Images V7 数据集介绍

本文主要是介绍Open Images V7 数据集介绍，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、简介

官网：Open Images V7 - Description

Open Images是由谷歌发布的一个开源图片数据集，在2022年10月份发布了最新的V7版本。这个版本的数据集包含了900多万张图片，都有类别标记。其中190多万张图片有非常精细的标注：bounding boxes, object segmentations, visual relationships, localized narratives, point-level labels, and image-level labels.

具体来说，这份数据集包括：

600个类上的15,851,536个boxes

对350个类进行2,785,498个实例分割

3,284,280个关于1,466个关系的关系注释

675,155个本地化的叙述

对5,827个类的66,391,027个point级别注释

对20,638个类别的61,404,966个图像级标签

扩展数据中 - 478,000张众包图像，包含6,000多个类别

本数据集的特点如下：

它包含了190万张图片上600个物体类别的16M个边界框，使其成为现有最大的物体位置注释数据集。这些方框主要是由专业注释者手工绘制的，以确保准确性和一致性。这些图像非常多样化，通常包含有多个物体的复杂场景（平均每张图像8.3个）。
开放图像还提供了视觉关系注释，表明特定关系的物体对（如 "弹吉他的女人"、"桌上的啤酒"）、物体属性（如 "桌子是木制的"）和人类行为（如 "女人在跳跃"）。它总共有来自1,466个不同关系三元组的330个注释。
在V5中，我们为350个类中的280万个对象实例添加了分割掩码。分割掩码标志着物体的轮廓，它以更高的细节水平来描述其空间范围。
在V6中，我们增加了675k个本地化叙述：对图像的多模态描述，包括同步的语音、文字和在被描述物体上的鼠标痕迹。(请注意，我们最初在V6中只在培训中推出了本地化的叙述，但从2020年7月起，我们也有验证和测试的内容）。
在V7中，我们在140万张图片上增加了6640万个点级标签，覆盖了5827个类别。这些标签提供了稀疏的像素级定位，适用于零/少量照片的语义分割训练和评估。
最后，该数据集被添加了6140万个图像级别的标签，涵盖20638个类别。

2、数据集扩展

Open Images Extended是一个包含额外图像和/或标注的数据集合，用于补充核心Open Images数据集。您可以在Extended部分了解更多信息。本页面的其余部分描述了核心Open Images数据集，不包括扩展内容

3、数据结构

该数据集被划分为训练集（包含9,011,219张图像）、验证集（包含41,620张图像）和测试集（包含125,436张图像）。这些图像均带有图像级别的标签、物体边界框、物体分割掩模、视觉关系以及下文所述的局部化叙事注释。

1) Image-level labels

表1显示了数据集所有图像级标签组成的概览。所有图像都具有由类似于Google Cloud Vision API的计算机视觉模型自动生成的机器生成的图像级标签。这些自动生成的标签存在相当大的误报率。此外，验证集和测试集，以及部分训练集具有经人工验证的图像级标签。大部分验证是由Google内部标注员完成的。

这篇关于Open Images V7 数据集介绍的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！