本文主要是介绍mageNet Object Localization Challenge,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
竞争描述
虽然人们很容易辨别出照片中细微的差别,但电脑仍然有办法。视觉上相似的东西很难让电脑计算,就像这堆重叠的香蕉。
或者想想这张照片,一个狐狸家族伪装在野外-狐狸在哪里结束,草在哪里开始?
注释。
由于这种竞争,仅2010年至2014年,图像分类误差就减少了4.2倍(从28.2%降至6.7%),定位误差就减少了1.7倍(从42.5%降至25.3%)。你能进一步提高精确度吗?
竞争概况
验证和测试数据将包括150000张照片,从Flickr和其他搜索引擎收集,手工标记有或没有1000个对象类别。1000个对象类别包含imagenet的内部节点和叶节点,但不相互重叠。
50000张带有标签的图片的随机子集将作为训练集和1000个类别的列表一起发布。其余图像将用作测试集。
IMAGENET培训数据中不包含本次比赛的验证和测试数据。
Data Description
至2017年7月,数据、比赛和注释从ImageNet下载站点镜像。
文件说明
imagenet_object_localization.tar.gz包含列车和验证集的图像数据和地面真值,以及测试集的图像数据。
图像注释以PascalVOC格式保存在XML文件中。用户可以使用Pascal开发工具包解析注释。
注释由它们的synset(例如,“波斯猫”、“山地自行车”或“热狗”)作为它们的wnid进行排序。这些身份证看起来像N00141669。每个图像的名称与注释文件名有直接的对应关系。例如,n2123394/n2123394_28.xml的边界框是n2123394_28.jpeg。
您可以从http://www.image-net.org/api/download/image net.bbox.synset下载特定synset的所有边界框?WNID= [WNID]
培训图像位于文件夹下,其名称为synset。验证图像都在同一文件夹中。测试图像也都在同一个文件夹中。
Imageset文件夹包含指定主本地化任务图像列表的文本文件。
loc_sample_submission.csv是提交文件的正确格式。它包含两列:
image id:测试图像的ID,例如ilsvrc2012_test_u0000000 1
PredictionString:预测字符串应该是由5个整数分隔的空格。例如,1000 240 170 260 240表示它的标签1000,带有坐标边界框(x_min、y_min、x_max、y_max)。我们最多接受5个预测。例如,如果您提交包含6个边界框的862 42 24 170 186 862 292 28 430 198 862 168 24 292 190 862 299 238 443 374 862 160 195 294 357 862 3 214 135 356,我们只考虑前5个。
loc_train_solution.csv和loc_val_solution.csv:这些信息已经在imagenet_object_localization.tar.gz中提供,但我们以csv格式提供这些信息,以与loc_sample_submission.csv一致。每个文件包含两列:
image id:列车/val图像的ID,例如n2017213 U 7894或ilsvrc2012 U val U 00048981
PredictionString:预测字符串是由5个整数分隔的空格。例如,n1978287 240 170 260 240表示其标签n1978287,带有坐标边界框(x_min、y_min、x_max、y_max)。重复边界框表示同一图像中的多个框:n0447861 248 177 417 332 n0447861 171 156 251 175 n044447861 24 133 115 254
loc_synset_mapping.txt:1000个synset id与其描述之间的映射。例如,行1表示n1440764 tench,tinca tinca表示这是类1,synset id为n1440764,它包含fish tench。
这篇关于mageNet Object Localization Challenge的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!