本文主要是介绍【Image captioning】UCM字幕生成Resnet特征,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1. 分析数据规模
UCM-Captions数据集是基于UCM-Merced大学土地利用数据集构建的。图像来自美国地质调查局的国家地图城市区域。UCM-Captions数据集包含21个类别,包括飞机、海滩、高架桥和体育场等,总共有2100张遥感图像。UCM-Captions数据集中的一些样本如图5所示。每张遥感图像的分辨率为256 × 256像素,并配备有5个不同的标题标签。整个数据集使用368个不同的词汇生成了10,500个描述图像的标题标签。
数据下载链接:https://pan.baidu.com/s/1yreJdO_2wwWx9sHpNRVdig?pwd=tg8d 提取码:tg8d
训练集 | 测试集 | 验证集 | |
---|---|---|---|
图像数量 | 1680 | 210 | 210 |
字幕数量 | 8400 | 1050 | 1050 |
2. Dataset.json
是一个 UCM-Captions数据集的注释文件,其中包含了每个图像的标注信息,如图像的路径、ID、宽高、类别等。在使用 UCM数据集进行训练和评估时,需要使用该文件来加载数据集并提取标注信息。
images
: 一个列表,包含了所有图像及其对应的信息。该例中只包含一个元素,即一张图片及其相关信息,包含以下字段:sentids
: 一个列表,包含了所有与该图像相关的标注 ID。filename
:
这篇关于【Image captioning】UCM字幕生成Resnet特征的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!