COCO数据集缺失文件补全方法

2024-09-02 06:52
文章标签 数据 方法 缺失 补全 coco

本文主要是介绍COCO数据集缺失文件补全方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

COCO2017数据集图片文件缺失自动补全方法

一、前言

本文代码是以目标检测(object detection)和实例分割(instance segmentation)任务的标签文件为例,即instances_train/val/test2017.json文件。

其他任务的标签文件内容略有不同,但是图片来源表示字段完全相同,因此代码可通用。另外如果是非2017版本COCO应该也通用。

1.1 杂谈

本人计算机视觉科研狗一条,生活在在威名赫赫的 汪汪星球球立大学。

某日,本汪以Featurized-QueryRCNN框架为基础,结合自己的模块形成一个新的目标检测模型。当我按下训练的命令,训练了一段时间后,出现了如下报错(因为刚好训练到的那个batch中有缺失的图片):

  ······此处省略一万字File "/liushuai2/PCP/FeatEnHancer-main/detectron2/detectron2/data/detection_utils.py", line 182, in read_imagewith PathManager.open(file_name, "rb") as f:File "/root/anaconda3/envs/FEHR/lib/python3.9/site-packages/iopath/common/file_io.py", line 1012, in openbret = handler._open(path, mode, buffering=buffering, **kwargs)  # type: ignoreFile "/root/anaconda3/envs/FEHR/lib/python3.9/site-packages/iopath/common/file_io.py", line 604, in _openreturn open(  # type: ignore
FileNotFoundError: [Errno 2] No such file or directory: '/liushuai2/PCP/datasets/COCO2017/train2017/000000581831.jpg'

当看到这个我都震惊了,因为数据集我是直接从COCO官方网站下载下来的,竟然有图片缺失!!!

只能想办法解决了,找了半天网络上没啥好用的办法,而且有也是COCO2014而不是COCO2017的。对此我决定自己写一个缺失文件补全代码。

1.2 部分代码逻辑说明

我的代码如果大家细看会发现你没有看到下载链接。这是因为标准COCO数据集的标签文件中对每一张图片都包含了下载链接,如下所示:

{"license": 4,"file_name": "000000060623.jpg","coco_url": "http://images.cocodataset.org/train2017/000000060623.jpg","height": 427,"width": 640,"date_captured": "2013-11-14 17:24:15","flickr_url": "http://farm7.staticflickr.com/6080/6113512699_37b4c98473_z.jpg","id": 60623}

可以看到,在该字典中 coco_url 键的值为图像下载地址。故我在代码中提取了该键值对,并将其值作为下载命令的参数。

另外大家觉得不懂我的代码是怎么解析标签文件(json)的,其实我把COCO数据集的标准格式摆出来大家再去看代码就明白了:

{"info": {"description": "This is stable 1.0 version of the 2014 MS COCO dataset.","url": "http://mscoco.org","version": "1.0","year": 2014,"contributor": "Microsoft COCO group","date_created": "2015-01-27 09:11:52.357475"},"licenses": [{"url": "http://creativecommons.org/licenses/by-nc-sa/2.0/","id": 1,"name": "Attribution-NonCommercial-ShareAlike License"}],"images": [{"license": 3,"file_name": "COCO_val2014_000000391895.jpg","coco_url": "http://mscoco.org/images/391895","height": 360,"width": 640,"date_captured": "2013-11-14 11:18:45","flickr_url": "http://farm9.staticflickr.com/8186/8119368305_4e622c8349_z.jpg","id": 391895}],"annotations": [{"id": 1768,"image_id": 289343,"category_id": 18,"segmentation": [[510.66, 423.01, 511.72, 420.03, 510.45, ...]],"area": 702.1057499999998,"bbox": [473.07, 395.93, 38.65, 28.67],"iscrowd": 0}],"categories": [{"id": 18,"name": "dog","supercategory": "animal"}]
}

上面是一个标签文件的标准格式,不过为了简便每个数字我都只写了一个示例。我们关注的是字典中的images键,这个键所对应的值是一个数组,这个数组包含了数据集中每一张图片的基本信息。

二、实现代码

以下三种方法均可在 Windows 或 Linux 操作系统上运行,已做系统适配,兼容性好。唯一的缺点就是有两种方法需要二外安装依赖包,不过这不是很大的问题啦。

下面三个代码块均需要用到的非标准库是 tqdm 。我用该库来制作好看的进度条,因此需要提前安装:

pip install tqdm

2.1 使用msgspec库(极快 + 操作稍稍麻烦)

2.1.1 食用指南

安装 msgspec

pip install msgspec

拷贝【2.1.2】的代码,并修改 annotations_file_pathimage_directory 为你的COCO数据集相关路径

2.1.2 代码
import os
import subprocess
from tqdm import tqdm
import sys
import platform
import time
import msgspecclass Image(msgspec.Struct):file_name: strcoco_url: strclass ImagesInfo(msgspec.Struct):images: list[Image]def get_missing_files(annotation_file_path, image_directory):# 读取标注文件start_time = time.time()with open(annotation_file_path, 'rb') as f:images_info = msgspec.json.decode(f.read(), type=ImagesInfo)annotation_time = time.time() - start_time# 获取图像列表start_time = time.time()annotation_images_list = images_info.imagesdirectory_images_set = set(os.listdir(image_directory))directory_time = time.time() - start_time# 存放缺失的文件名missing_files = []# 遍历字典,检查每个文件是否存在start_time = time.time()for image in annotation_images_list:# 获取 文件名file_name = image.file_name# 检查文件是否存在if file_name not in directory_images_set:print(f"文件 {file_name} 不存在")download_url = image.coco_urlmissing_files.append({'file_name': file_name,'download_url': download_url})check_time = time.time() - start_timeprint(f"缺失文件数量: {len(missing_files)}")print(f"读取标注文件耗时: {annotation_time:.4f} 秒")print(f"获取图像列表耗时: {directory_time:.4f} 秒")print(f"检查缺失文件耗时: {check_time:.4f} 秒")return missing_filesdef download_Missing_files(missing_files, image_directory):# 检测操作系统类型system = platform.system().lower()# 遍历缺失文件列表并下载with tqdm(missing_files) as pbar:for file in pbar:# 实时更新进度条的描述为当前正在下载的文件名pbar.set_description(f"Downloading {file['file_name']}")if system == "windows":# 构建 curl 命令download_command = f"curl -o {image_directory}\\{file['file_name']} {file['download_url']}"else:# 构建 wget 命令download_command = f"wget -P {image_directory} {file['download_url']}"# 执行 wget 命令,并将输出重定向到DEVNULL以隐藏输出subprocess.run(download_command, shell=True,stdout=subprocess.DEVNULL,stderr=subprocess.DEVNULL)if __name__ == '__main__':# 读取标注文件和图像目录路径annotations_file_path = r'/liushuai2/PCP/datasets/COCO2017/annotations/instances_train2017.json'image_directory = r'/liushuai2/PCP/datasets/COCO2017/train2017'# 获取缺失的文件列表missing_files = get_missing_files(annotations_file_path, image_directory)if len(missing_files) == 0:print("没有缺失的文件, Over")sys.exit()# 下载缺失的文件download_Missing_files(missing_files, image_directory)

2.2 使用orjson库(慢 + 操作简单)

2.2.1 食用指南

安装 msgspec

pip install orjson

拷贝【2.2.2】的代码,并修改 annotations_file_pathimage_directory 为你的COCO数据集相关路径

2.2.2 代码
import json
import os
import subprocess
from tqdm import tqdm
import sys
import platform
import time
import orjsondef get_missing_files(annotation_file_path, image_directory):# 读取标注文件start_time = time.time()with open(annotation_file_path, 'rb') as f:images_info = orjson.loads(f.read())annotation_time = time.time() - start_time# 获取图像列表start_time = time.time()annotation_images_list = images_info['images']directory_images_set = set(os.listdir(image_directory))directory_time = time.time() - start_time# 存放缺失的文件名missing_files = []# 遍历字典,检查每个文件是否存在start_time = time.time()for image in annotation_images_list:file_name = image['file_name']if file_name not in directory_images_set:print(f"文件 {file_name} 不存在")download_url = image['coco_url']missing_files.append({'file_name': file_name,'download_url': download_url})check_time = time.time() - start_timeprint(f"缺失文件数量: {len(missing_files)}")print(f"读取标注文件耗时: {annotation_time:.4f} 秒")print(f"获取图像列表耗时: {directory_time:.4f} 秒")print(f"检查缺失文件耗时: {check_time:.4f} 秒")return missing_filesdef download_Missing_files(missing_files, image_directory):# 检测操作系统类型system = platform.system().lower()# 遍历缺失文件列表并下载with tqdm(missing_files) as pbar:for file in pbar:# 实时更新进度条的描述为当前正在下载的文件名pbar.set_description(f"Downloading {file['file_name']}")if system == "windows":# 构建 curl 命令download_command = f"curl -o {image_directory}\\{file['file_name']} {file['download_url']}"else:# 构建 wget 命令download_command = f"wget -P {image_directory} {file['download_url']}"# 执行 wget 命令,并将输出重定向到DEVNULL以隐藏输出subprocess.run(download_command, shell=True,stdout=subprocess.DEVNULL,stderr=subprocess.DEVNULL)if __name__ == '__main__':# 读取标注文件和图像目录路径annotations_file_path = r'/liushuai2/PCP/datasets/COCO2017/annotations/instances_train2017.json'image_directory = r'/liushuai2/PCP/datasets/COCO2017/train2017'# 获取缺失的文件列表missing_files = get_missing_files(annotations_file_path, image_directory)if len(missing_files) == 0:print("没有缺失的文件, Over")sys.exit()# 下载缺失的文件download_Missing_files(missing_files, image_directory)

2.3 使用json库(极慢 + 操作最简单)

修改 annotations_file_pathimage_directory 为你的COCO数据集相关路径即可直接食用

import json
import os
import subprocess
from tqdm import tqdm
import sys
import platform
import timedef get_missing_files(annotation_file_path, image_directory):# 读取标注文件start_time = time.time()with open(annotation_file_path, 'r') as f:images_info = json.load(f)annotation_time = time.time() - start_time# 获取图像列表start_time = time.time()annotation_images_list = images_info['images']directory_images_set = set(os.listdir(image_directory))directory_time = time.time() - start_time# 存放缺失的文件名missing_files = []# 遍历字典,检查每个文件是否存在start_time = time.time()for image in annotation_images_list:# 获取文件名file_name = image['file_name']# 将不存在的文件添加到缺失列表if file_name not in directory_images_set:print(f"文件 {file_name} 不存在")download_url = image['coco_url']missing_files.append({'file_name': file_name,'download_url': download_url})check_time = time.time() - start_timeprint(f"缺失文件数量: {len(missing_files)}")print(f"读取标注文件耗时: {annotation_time:.4f} 秒")print(f"获取图像列表耗时: {directory_time:.4f} 秒")print(f"检查缺失文件耗时: {check_time:.4f} 秒")return missing_filesdef download_Missing_files(missing_files, image_directory):# 检测操作系统类型system = platform.system().lower()# 遍历缺失文件列表并下载with tqdm(missing_files) as pbar:for file in pbar:# 实时更新进度条的描述为当前正在下载的文件名pbar.set_description(f"Downloading {file['file_name']}")if system == "windows":# 构建 curl 命令download_command = f"curl -o {image_directory}\\{file['file_name']} {file['download_url']}"else:# 构建 wget 命令download_command = f"wget -P {image_directory} {file['download_url']}"# 执行 wget 命令,并将输出重定向到DEVNULL以隐藏输出subprocess.run(download_command, shell=True,stdout=subprocess.DEVNULL,stderr=subprocess.DEVNULL)if __name__ == '__main__':# 读取标注文件和图像目录路径annotations_file_path = r'/liushuai2/PCP/datasets/COCO2017/annotations/instances_train2017.json'image_directory = r'/liushuai2/PCP/datasets/COCO2017/train2017'# 获取缺失的文件列表missing_files = get_missing_files(annotations_file_path, image_directory)if len(missing_files) == 0:print("没有缺失的文件, Over")sys.exit()# 下载缺失的文件download_Missing_files(missing_files, image_directory)

三、用到的库的简单介绍

3.1 基本介绍

3.1.1 msgspec

msgspec 是一个高性能的序列化和验证库,支持 JSON、MessagePack、YAML 和 TOML 等多种格式。它的特点包括:

  • 高性能:在常见协议的编码/解码中表现出色,通常比其他库快10-80倍。
  • 零成本的模式验证:使用 Python 类型注解进行模式验证。
  • 轻量级:没有依赖项,适合需要高效处理数据的场景。
  • 结构化数据支持:提供类似 dataclassesStruct 类型,但性能更高。
3.1.2 orjson

orjson 是一个快速且正确的 JSON 库,专为 Python 设计。它的特点包括:

  • 极高的性能:在序列化和反序列化方面表现优异,特别是在处理大型数据结构时。
  • 原生支持多种类型:包括 dataclassdatetimenumpyUUID 实例。
  • 严格的 JSON 和 UTF-8 规范:确保数据的正确性和兼容性。
  • 高效的内存使用:在处理 numpy.ndarray 时,内存使用率仅为其他库的0.3倍。
3.1.3 json

json 是 Python 标准库中的 JSON 编码和解码模块。它的特点包括:

  • 易用性:作为标准库的一部分,无需额外安装。
  • 基本功能:支持将 Python 对象序列化为 JSON 字符串,以及将 JSON 字符串反序列化为 Python 对象。
  • 扩展性:可以通过自定义编码器和解码器来处理复杂类型。

3.2 对比总结

  • 性能
    • msgspec:在编码/解码方面表现出色,通常比其他库快10-80倍。

    • orjson:在序列化和反序列化方面表现优异,特别是在处理大型数据结构时。

    • json:性能较为一般,适合处理小型数据。

  • 功能
    • msgspec:支持 JSON、MessagePack、YAML 和 TOML,多格式支持;零成本的模式验证;提供类似 dataclassesStruct 类型。

    • orjson:原生支持 dataclassdatetimenumpyUUID 实例;严格的 JSON 和 UTF-8 规范。

    • json:基本的 JSON 编码和解码功能;可以通过自定义编码器和解码器来处理复杂类型。

  • 易用性
    • msgspec:需要额外安装,但没有依赖项,轻量级。

    • orjson:需要额外安装,但提供了丰富的功能和高性能。

    • json:作为 Python 标准库的一部分,无需额外安装,使用方便。

  • 内存使用
    • msgspec:高效的内存使用,适合需要高效处理数据的场景。

    • orjson:在处理 numpy.ndarray 时,内存使用率仅为其他库的0.3倍。

    • json:内存使用较为一般。

  • 适用场景
    • msgspec:适合需要高性能和多格式支持的场景,如实时数据处理和大规模数据传输。

    • orjson:适合需要高性能 JSON 处理的场景,特别是涉及大型数据结构和多种数据类型的应用。

    • json:适合一般的 JSON 编码和解码需求,特别是小型项目或不需要高性能的场景。

这篇关于COCO数据集缺失文件补全方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1129303

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操