如何使用MONAI构建多分类dataset--直接从文件夹加载数据

2023-11-21 06:59

本文主要是介绍如何使用MONAI构建多分类dataset--直接从文件夹加载数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


如图所示,做多类别分类,每个文件夹代表一个类别,所有图像均为NIFTI格式,如何加载进 MONAI 进行训练?

在这之前,我们来看看 MONAI dataset 加载方法:

MONAI dataset 的数据(image, label)输入有两种形式,一种是 array(数组), 一种是dict(字典)。

简单区分一下

以 array 形式加载数据

images = ["IXI314-IOP-0889-T1.nii.gz","IXI249-Guys-1072-T1.nii.gz","IXI609-HH-2600-T1.nii.gz","IXI173-HH-1590-T1.nii.gz","IXI020-Guys-0700-T1.nii.gz",]labels = np.array([0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0], dtype=np.int64)train_ds = ImageDataset(image_files=images, labels=labels, transform=train_transforms)
train_loader = DataLoader(train_ds, batch_size=2, shuffle=True, num_workers=2, pin_memory=torch.cuda.is_available())

从代码里很容易看到,images 和 labels 都是 array, 直接作为 ImageDataset 的参数就行。

以 dict 形式加载数据

images = ["IXI314-IOP-0889-T1.nii.gz","IXI249-Guys-1072-T1.nii.gz","IXI609-HH-2600-T1.nii.gz","IXI173-HH-1590-T1.nii.gz","IXI020-Guys-0700-T1.nii.gz",]labels = np.array([0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0], dtype=np.int64)train_files = [{"img": img, "label": label} for img, label in zip(images, labels)]
train_ds = monai.data.Dataset(data=train_files, transform=train_transforms)
train_loader = DataLoader(train_ds, batch_size=2, shuffle=True, num_workers=4, pin_memory=torch.cuda.is_available())

这里 images 和 labels 都是 array, 只不过最后会把他们打包成一个字典,使得每个样本的 image和label相对应起来。然后传给 Dataset。

所以,回到最初的问题,不管用array形式还是dict形式,我们都需要构建一个 images/labels, 其中images里面是每个image的地址,如果是分类问题,labels是每个图像的类别, 如果是分割问题,则是ground truth的地址。

进一步的问题是:如何给文件夹的每个图像定义label?

当然,这在torchvision中,有一个函数(ImageFolder)可以轻松搞定!

但是!他的缺点是不可以加载后缀为gz的文件,但是医学图像大部分都是三维图像,后缀为nii.gz,怎么办???

我们可以借鉴他的思路,自己写一个支持 .gz文件的不就好了。

说干就干

第一种:直接修改源代码

查看源码,它不支持 gz的主要原因是它指定了后缀为下面这些👇

IMG_EXTENSIONS = (‘.jpg’, ‘.jpeg’, ‘.png’, ‘.ppm’, ‘.bmp’, ‘.pgm’, ‘.tif’, ‘.tiff’, ‘.webp’)

因为不包含gz,所以不支持。

源码在torchvision/datasets/folder.py

那一种简单粗暴地方法就是直接修改 IMG_EXTENSIONS,在后面加一个 ‘.gz’,就可以使用了。

使用案例:

from torchvision.datasets import ImageFolder
data_root = '/dataset'
dataset = ImageFolder(root=data_root)
classes = dataset.classes  # 获得类别名称(文件夹的名字)
class_to_idx = dataset.class_to_idx # 获得类别对应的索引或标签
images_labels = dataset.imgs
images = [tup[0] for tup in images_labels] # array
labels = [tup[1] for tup in images_labels] # array# for dict
train_files = [{'image': tup[0], 'label': tup[1]} for tup in images_labels] # dict

然后就可以传到上述两种dataset了,完美解决👍👍

但是这种方法对源代码造成了破坏,不易移植,虽然简单粗暴,但是不推荐!!

我们可以根据他的思路自己写一个

第二种:构建自己的ImageFolder

构建思路:

  • step 1 获取文件夹名称作为classes,并给它标签。
def find_classes(directory: str):"""Finds the class folders in a dataset."""classes = sorted(entry.name for entry in os.scandir(directory) if entry.is_dir())if not classes:raise FileNotFoundError(f"Couldn't find any class folder in {directory}.")class_to_idx = {cls_name: i for i, cls_name in enumerate(classes)}return classes, class_to_idx

  • step 2 遍历文件夹,赋予每个图像标签
    在这一步中,我们会检查每个图像的后缀。
img_label_dict = []
imgs = []
labels = []
for target_class in sorted(class_to_idx.keys()):class_index = class_to_idx[target_class] target_dir = os.path.join(directory, target_class)if not os.path.isdir(target_dir):continuefor root, _, fnames in sorted(os.walk(target_dir, followlinks=True)):for fname in sorted(fnames):if is_valid_file(fname): # 判断后缀是否有效path = os.path.join(root, fname)item = {'img': path, 'label': class_index}img_label_dict.append(item)imgs.append(path)labels.append(class_index)

这是关键代码,不全。

最后贴上完整代码

import os
from typing import Any, Callable, cast, Dict, List, Optional, Tuple# 从 data 根目录自动获取不同的类别文件夹,并自动给文件夹标签
def find_classes(directory: str):"""Finds the class folders in a dataset."""classes = sorted(entry.name for entry in os.scandir(directory) if entry.is_dir())if not classes:raise FileNotFoundError(f"Couldn't find any class folder in {directory}.")class_to_idx = {cls_name: i for i, cls_name in enumerate(classes)}return classes, class_to_idx# 检查 file 的后缀是不是在允许的扩展中
def has_file_allowed_extension(filename: str, extensions: Tuple[str, ...]) -> bool:"""Checks if a file is an allowed extension.Args:filename (string): path to a fileextensions (tuple of strings): extensions to consider (lowercase)Returns:bool: True if the filename ends with one of given extensions"""return filename.lower().endswith(extensions)# 从根目录中获取 图像的类别,以及自动为类别设置类标签,返回【图像-标签对, 类别名, 类别对应的索引等】
def make_dataset(directory: str,class_to_idx: Optional[Dict[str, int]] = None,extensions: Optional[Tuple[str, ...]] = None,is_valid_file: Optional[Callable[[str], bool]] = None,
) -> List[Tuple[str, int]]:"""Generates a list of samples of a form (path_to_sample, class)."""directory = os.path.expanduser(directory)if class_to_idx is None:classes, class_to_idx = find_classes(directory)elif not class_to_idx:raise ValueError("'class_to_index' must have at least one entry to collect any samples.")both_none = extensions is None and is_valid_file is Noneboth_something = extensions is not None and is_valid_file is not Noneif both_none or both_something:raise ValueError("Both extensions and is_valid_file cannot be None or not None at the same time")if extensions is not None:def is_valid_file(x: str) -> bool:return has_file_allowed_extension(x, cast(Tuple[str, ...], extensions))is_valid_file = cast(Callable[[str], bool], is_valid_file)img_label_dict = []imgs = []labels = []available_classes = set()for target_class in sorted(class_to_idx.keys()):class_index = class_to_idx[target_class]target_dir = os.path.join(directory, target_class)if not os.path.isdir(target_dir):continuefor root, _, fnames in sorted(os.walk(target_dir, followlinks=True)):for fname in sorted(fnames):if is_valid_file(fname):path = os.path.join(root, fname)item = {'img': path, 'label': class_index}img_label_dict.append(item)imgs.append(path)labels.append(class_index)if target_class not in available_classes:available_classes.add(target_class)empty_classes = set(class_to_idx.keys()) - available_classesif empty_classes:msg = f"Found no valid file for the classes {', '.join(sorted(empty_classes))}. "if extensions is not None:msg += f"Supported extensions are: {', '.join(extensions)}"raise FileNotFoundError(msg)return img_label_dict, imgs, labels, classes, class_to_idxif __name__ == '__main__':data_root = 'dataset'# classes, class_to_idx = find_classes(data_root)# 允许的扩展名extensions = ('.jpg', '.jpeg', '.png', '.ppm', '.bmp', '.pgm', '.tif', '.tiff', '.webp', '.gz')img_label_dict, imgs, labels, classes, class_to_idx= make_dataset(data_root, extensions=extensions)

完结~

文章持续更新,可以关注微信公众号【医学图像人工智能实战营】获取最新动态,一个关注于医学图像处理领域前沿科技的公众号。坚持已实践为主,手把手带你做项目,打比赛,写论文。凡原创文章皆提供理论讲解,实验代码,实验数据。只有实践才能成长的更快,关注我们,一起学习进步~

我是Tina, 我们下篇博客见~

白天工作晚上写文,呕心沥血

觉得写的不错的话最后,求点赞,评论,收藏。或者一键三连
在这里插入图片描述

这篇关于如何使用MONAI构建多分类dataset--直接从文件夹加载数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/400632

相关文章

Rust中的注释使用解读

《Rust中的注释使用解读》本文介绍了Rust中的行注释、块注释和文档注释的使用方法,通过示例展示了如何在实际代码中应用这些注释,以提高代码的可读性和可维护性... 目录Rust 中的注释使用指南1. 行注释示例:行注释2. 块注释示例:块注释3. 文档注释示例:文档注释4. 综合示例总结Rust 中的注释

Linux使用cut进行文本提取的操作方法

《Linux使用cut进行文本提取的操作方法》Linux中的cut命令是一个命令行实用程序,用于从文件或标准输入中提取文本行的部分,本文给大家介绍了Linux使用cut进行文本提取的操作方法,文中有详... 目录简介基础语法常用选项范围选择示例用法-f:字段选择-d:分隔符-c:字符选择-b:字节选择--c

Rust中的BoxT之堆上的数据与递归类型详解

《Rust中的BoxT之堆上的数据与递归类型详解》本文介绍了Rust中的BoxT类型,包括其在堆与栈之间的内存分配,性能优势,以及如何利用BoxT来实现递归类型和处理大小未知类型,通过BoxT,Rus... 目录1. Box<T> 的基础知识1.1 堆与栈的分工1.2 性能优势2.1 递归类型的问题2.2

使用Go语言开发一个命令行文件管理工具

《使用Go语言开发一个命令行文件管理工具》这篇文章主要为大家详细介绍了如何使用Go语言开发一款命令行文件管理工具,支持批量重命名,删除,创建,移动文件,需要的小伙伴可以了解下... 目录一、工具功能一览二、核心代码解析1. 主程序结构2. 批量重命名3. 批量删除4. 创建文件/目录5. 批量移动三、如何安

Python重命名文件并移动到对应文件夹

《Python重命名文件并移动到对应文件夹》在日常的文件管理和处理过程中,我们可能会遇到需要将文件整理到不同文件夹中的需求,下面我们就来看看如何使用Python实现重命名文件并移动到对应文件夹吧... 目录检查并删除空文件夹1. 基本需求2. 实现代码解析3. 代码解释4. 代码执行结果5. 总结方法补充在

springboot的调度服务与异步服务使用详解

《springboot的调度服务与异步服务使用详解》本文主要介绍了Java的ScheduledExecutorService接口和SpringBoot中如何使用调度线程池,包括核心参数、创建方式、自定... 目录1.调度服务1.1.JDK之ScheduledExecutorService1.2.spring

Java使用Tesseract-OCR实战教程

《Java使用Tesseract-OCR实战教程》本文介绍了如何在Java中使用Tesseract-OCR进行文本提取,包括Tesseract-OCR的安装、中文训练库的配置、依赖库的引入以及具体的代... 目录Java使用Tesseract-OCRTesseract-OCR安装配置中文训练库引入依赖代码实

Python使用Pandas对比两列数据取最大值的五种方法

《Python使用Pandas对比两列数据取最大值的五种方法》本文主要介绍使用Pandas对比两列数据取最大值的五种方法,包括使用max方法、apply方法结合lambda函数、函数、clip方法、w... 目录引言一、使用max方法二、使用apply方法结合lambda函数三、使用np.maximum函数

spring-boot-starter-thymeleaf加载外部html文件方式

《spring-boot-starter-thymeleaf加载外部html文件方式》本文介绍了在SpringMVC中使用Thymeleaf模板引擎加载外部HTML文件的方法,以及在SpringBoo... 目录1.Thymeleaf介绍2.springboot使用thymeleaf2.1.引入spring

Qt 中集成mqtt协议的使用方法

《Qt中集成mqtt协议的使用方法》文章介绍了如何在工程中引入qmqtt库,并通过声明一个单例类来暴露订阅到的主题数据,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录一,引入qmqtt 库二,使用一,引入qmqtt 库我是将整个头文件/源文件都添加到了工程中进行编译,这样 跨平台