本文主要是介绍TAO toolkit 训练UNET 踩坑记录 解决mask与image无法对齐问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
先说结论,如果在使用TAO 训练Unet时候发生image与mask没有对齐(配对混乱),要自己写train_image.txt 那几个txt文件,注意文件内图片的顺序务必 train 的image 和mask 保持一致。
1. TAO框架白话介绍:
TAO toolkit 简单来说是一个基于 tao(python端软件)+ nvidia docker(对应tao容器)的一个工具集合,主要用于跑模型训练、剪枝量化、模型输出、数据集处理的框架,优势是不用安装那么多依赖,只需要搭建一个nvidiadocker的环境请参考TAO Toolkit Quick Start Guide - NVIDIA Docs进行安装(请注意,nvidiadocker目前是2版本了,安装过程跟网上的可能不同)在拉起的容器内就可以做这些工作省去各种麻烦的依赖安装步骤。
TAO框架有几个典型的容器 tensorflow2 tensorflow1 以及pytorch 三个(如果不是定制没啥区别,我本来用pytorch的,误拉起TF1的容器也是一样的操作没区别)
正文开始:
1. 安装的坑:
1.1 如果你在标准UBUNTU上安装,可能会遇到docker启动时候需要sudo的问题,这块需要注意,如果不像每次启动都sudo需要上网查一下
1.2 安装NGC时候 提示的password 实际上是生成的apikey 需要在提示的网址那边去生成一个。
2. 启动的坑:
2.1 tao启动命令里的参数对应的文件路径,都是容器内的路径,不是本机路径哦
2.2 在sudo情况下.tao_mounts.json 要放到/root文件夹下: 由于我这边没有root用户权限(只有sudo权限 不能su),每次启动tao时候都是用 sudo tao xx来启动的,在教程中将配置文件.tao_mounts.json 放到~/ 这一步 在我这里就变成了 要放到/root用户下 默认的~/ 是home文件夹 这里要注意,不然你会发现容器起来以后总说各种文件找不到。
3. NGC下载东西要科学 上 网...
4. 针对UNET 的坑:
1. 数据集按照说明是有两种格式的(其实只有第二种能用) :1. 利用txt文件索引 2.按照预定的格式存放,这里注意,第二种我试过了,试了一周都不行,各种问题(主要是乱套了,mask跟image对不上),直接用 TXT文件索引,注意mask 和 image 这两个文件的顺序要对上。txt文件内的文件路径要是容器内的路径,这里要参考.tao_mounts.json的映射来确定路径哦!
2. 配置 config.txt时候(教程里放到specs那个)的data_clase_config时候 label_id 要跟mask文件中的你要的部分的对应像素值对应 例如我的标注 黑色是背景,白色是要提取的东西 则需要这样写 data_class_config {
target_classes {
name: "foreground"
mapping_class: "foreground"
label_id: 255
}
target_classes {
name: "background"
mapping_class: "background"
label_id: 0
}
}
如果单张MASK中有多个类别,则需要不同的类是不同像素值 例如 猫咪 狗狗 背景 则应该是 255 128 0 在这个mask文件中有三个值(不必是0就是背景,只要对应上就ok)。与cityscapes 标注类型中的 _idLabels.png中是一样的,在config中的target_classes的label_id 设置为 255 128 0 这三个值
3. mask 对应的图片格式应该是 PIL图像中的"L" 而不是 "1"
4. 在使用 三色图片时候 config 中 input_image_type: "color"
5. 在training_config中添加 visualizer{
enabled:true
} 可以开启tensorboard 对debug很有用
这篇关于TAO toolkit 训练UNET 踩坑记录 解决mask与image无法对齐问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!