使用yolov8训练数据集及使用中遇到的问题

2023-11-06 23:30

本文主要是介绍使用yolov8训练数据集及使用中遇到的问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.下载yolov8文件夹

下载链接

就是这个文件夹,别怕

 2.yolov8模型

下载链接,我下了yolov8s.py,放在该路径E:\nfshare\yolov8\ultralytics\weights

ps:model文件类型可以是yaml,也可以是pt

 3.修改yolov8.yaml文件

E:\nfshare\yolov8\ultralytics\cfg\models\v8\yolov8.yaml,就改类别数

nc: 9  # number of classes

4.新建data文件

 E:\nfshare\yolov8\ultralytics\cfg\datasets\hr.yaml,这些和yolov5一样

5.修改default.yaml文件

E:\nfshare\yolov8\ultralytics\cfg\default.yaml ,就动了以下几个参数

model: weights/yolov8s.pt  # (str, optional) path to model file, i.e. yolov8n.pt, yolov8n.yaml
data:  cfg/datasets/hr.yaml # (str, optional) path to data file, i.e. coco128.yaml
epochs: 1  # (int) number of epochs to train for
amp: False
batch: 8

 运行代码 yolo cfg=cfg/default.yaml

6.训练yolov8模型(train)

1.新建.py文件训练模型

在路径下新建python脚本文件\yolov8\ultralytics\demo.py,就像运行yolov5的模型一样,运行该脚本文件。

下面这些参数要怎么设置我还没懂。

#import sys
#sys.path.append("/home/yyt/nfshare/yolov8/")
from ultralytics import YOLO# Create a new YOLO model from scratch
#model = YOLO('/home/yyt/nfshare/yolov8/ultralytics/cfg/models/v8/yolov8.yaml')# Load a pretrained YOLO model (recommended for training)
model = YOLO('/home/yyt/nfshare/yolov8/ultralytics/weights/yolov8s.pt')# Train the model using the 'coco128.yaml' dataset for 3 epochs
results = model.train(data='/home/yyt/nfshare/yolov8/ultralytics/cfg/datasets/hr.yaml',amp=False,epochs=2,batch=8,val=True)# Evaluate the model's performance on the validation set
#results = model.val(data='/home/yyt/nfshare/yolov8/ultralytics/cfg/datasets/hr.yaml',amp=False,epochs=2,batch=8)success = model.export(format='onnx')

2.运行default.yaml文件训练模型

直接输入yolo cfg=/文件的路径/default.yaml

3.命令运行直接输:

yolo task=detect mode=train model=/yolov8/ultralytics/cfg/runs/detect/train6//weights/last.pt(模型位置,模型可以是.yaml形式或者.pt) data=/yolov8/ultralytics/cfg/datasets/hr.yaml(数据集.yaml文件位置) epochs=150 save=True resume=True (后面的都是参数,具体写什么看default.yaml里面你需要改什么)

7.测试训练后的模型(test)

1.运行default.yaml

修改default.yaml,运行代码和train一样

修改mode: val,model:/runs/detect/train6/weights/last.pt ,split: test 

2.代码运行

这个方法能显示test每张图片检测的结果

yolo predict model= '/home/yyt/nfshare/yolov8/ultralytics/cfg/runs/detect/train6/weights/last.pt'(模型路径) source= '/home/yyt/nfshare/zijianshujuji/image/test'(图片文件路径)

问题

1.box_loss   cls_loss   dfl_loss全显示为nan,map全为0

显卡问题,batch值太大

解决:在default.yaml中,改小batch值 ,amp改为False

2.val的box_loss、cls_loss、dfl_loss为0,train不为0

排查问题:

1.validator.py文件

为了解决问题1 result全显示为0,我删去了validator中的如下代码,恢复看看能不能跑通val

 self.args.half = self.device.type != 'cpu'  # force FP16 val during training

 失败

2.amp

amp改为ture,好的这个不能改,改了又都是nan

不是我瞎改的问题

尝试:

1.在trainer.py里面搜索half关键字,把所有有.half()变为.float()
            #'model': deepcopy(de_parallel(self.model)).half(),'model': deepcopy(de_parallel(self.model)).float(),#'ema': deepcopy(self.ema.ema).half(),'ema': deepcopy(self.ema.ema).float(),

 无效果

2.继续修改val.py,修改batch['img'].half()改为batch['img'].float()
#batch['img'] = (batch['img'].half() if self.args.half else batch['img'].float()) / 255batch['img'] = (batch['img'].float()) / 255

 3.继续修改validator.py

 不行

4.改小batch_size

batch_size=4

不行

解决:更新环境和其他安装包,pip install  -r requirement.txt

3.运行default.yaml,报错 ModuleNotFoundError: No module named 'ultralytics'

(yolov5) root@xxdell:/home/yyt/nfshare/yolov8/ultralytics# yolo cfg=/home/yyt/nfshare/yolov8/ultralytics/cfg/default.yaml
Traceback (most recent call last):File "/home/nephilim/environment/anaconda3/envs/yolov5/bin/yolo", line 5, in <module>from ultralytics.cfg import entrypoint
ModuleNotFoundError: No module named 'ultralytics'

解决方法:在/home/xx/environment/anaconda3/envs/yolov5/bin/yolo文件中添加路径

sys.path.append("/home/yyt/nfshare/yolov8/")

 再次运行,解决

4.训练结果runs文件保存路径改变

原本的训练结果保存在/home/yyt/nfshare/yolov8/runs 里面,即我的共享文件夹和yolov8存在的项目文件了,现在被更改了也不知道是怎么回事,前两次训练结果就没有出现。现在的文件夹路径在虚拟机的环境路径里/home/xx/environment/anaconda3/envs/yolov5/bin/runs/detect

感觉使用的不是yolov8,而是yolov5

(base) yyt@dell:/home/xx/environment/anaconda3/envs/yolov5/bin/runs/detect$ stat trainFile: trainSize: 4096          Blocks: 8          IO Block: 4096   directory
Device: 824h/2084d    Inode: 16883842    Links: 3
Access: (0755/drwxr-xr-x)  Uid: (    0/    root)   Gid: (    0/    root)
Access: 2023-08-21 15:02:27.587039861 +0800
Modify: 2023-08-21 14:59:15.937472731 +0800
Change: 2023-08-21 14:59:15.937472731 +0800

分析:

这几次运行的都是配置default.yaml,运行python文件,正常显示。


5.断网导致训练中断,继续训练

参考http://t.csdn.cn/UZRqy

命令行直接输入代码如下,模型改为之前跑的last.pt,epochs是总的训练次数

yolo task=detect mode=train model=/home/yyt/nfshare/yolov8/ultralytics/cfg/runs/detect/train6//weights/last.pt data=/home/yyt/nfshare/yolov8/ultralytics/cfg/datasets/hr.yaml epochs=150 save=True resume=True

6.ValueError: cannot convert float NaN to integer

训练完模型后,继续跑val测试,出现以下错误。

Validating runs/detect/train/weights/best.pt...
Ultralytics YOLOv8.0.173 🚀 Python-3.9.17 torch-2.0.1+cu117 CUDA:0 (NVIDIA GeForce GTX 1660 SUPER, 5928MiB)
Model summary (fused): 168 layers, 11129067 parameters, 0 gradientsClass     Images  Instances      Box(P          R      mAP50  mAP50-95):   1%|▏         | 1/78 [00:00<00:26,  2.87it/s]Exception in thread Thread-25:
Traceback (most recent call last):File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/threading.py", line 980, in _bootstrap_innerself.run()File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/threading.py", line 917, in runself._target(*self._args, **self._kwargs)File "/home/yyt/.local/lib/python3.9/site-packages/ultralytics/utils/plotting.py", line 446, in plot_imagesannotator.box_label(box, label, color=color)File "/home/yyt/.local/lib/python3.9/site-packages/ultralytics/utils/plotting.py", line 116, in box_labelself.draw.text((box[0], box[1] - h if outside else box[1]), label, fill=txt_color, font=self.font)File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/site-packages/PIL/ImageDraw.py", line 556, in textdraw_text(ink)File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/site-packages/PIL/ImageDraw.py", line 496, in draw_textcoord.append(int(xy[i]))
ValueError: cannot convert float NaN to integerClass     Images  Instances      Box(P          R      mAP50  mAP50-95):   3%|▎         | 2/78 [00:01<00:44,  1.70it/s]Exception in thread Thread-27:
Traceback (most recent call last):File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/threading.py", line 980, in _bootstrap_innerself.run()File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/threading.py", line 917, in runself._target(*self._args, **self._kwargs)File "/home/yyt/.local/lib/python3.9/site-packages/ultralytics/utils/plotting.py", line 446, in plot_imagesannotator.box_label(box, label, color=color)File "/home/yyt/.local/lib/python3.9/site-packages/ultralytics/utils/plotting.py", line 116, in box_labelself.draw.text((box[0], box[1] - h if outside else box[1]), label, fill=txt_color, font=self.font)File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/site-packages/PIL/ImageDraw.py", line 556, in textdraw_text(ink)File "/home/nephilim/environment/anaconda3/envs/yolov5/lib/python3.9/site-packages/PIL/ImageDraw.py", line 496, in draw_textcoord.append(int(xy[i]))

暂时没解决

7.关于requirements.txt安装文件的路径

这个默认安装路径一直让我很烦,安装前需要提前转到conda环境的路径下再运行命令

cd /home/111/yyt/anaconda3/envs/yolov8/lib/python3.10/site-packages(安装包路径)
pip install -r 路径/requirements.txt

参考这两篇文章http://t.csdn.cn/9edbL,http://t.csdn.cn/oJXMF,提前确定好自己的安装位置,免得找不到安装包。

8.command 'yolonot found ,did you mean:command 'rolo' from deb rolo 

类似找不到命令的情况在yolov8里很常见

参考http://t.csdn.cn/R6aQY

运行yolov8目录下的setup.py文件

python setup.py install

9.seaborn/_oldcore.py:1119:FuturwWarning:use_inf_as_na option is be removed in a future version.Cohvert inf values to NaN before operating instead: 

 未来预警,意思是seaborn/_oldcore.py:1119:FuturwWarning:use_inf_as_na 选项将在未来版本中删除。在操作之前将 inf 值转换为 NaN:

只要不是报错不管他。

10.AssertionError: /home/wsjdy/yyt/nfshare/yolov8/ultralytics/runs/detect/train5/weights/last.pt training to 150 epochs is finished, nothing to resume.

训练150轮结束后,想要继续训练,增加训练轮数

修改resume=True epochs=300 models=/上次训练的结果/last.pt 

结果显示报错如上。

尝试:yolov8断点恢复训练及减少训练次数和增加训练次数-CSDN博客

修改ultralytics/engine/trainer.py文件

修改self.epochs=想要训练的总次数,结果失败

尝试2:Yolov8断点续训/继续训练_q1224352995的博客-CSDN博客 失败

屈服了

直接把models改为last.pt,resume=False,epochs=150,在原有的基础上加训

这篇关于使用yolov8训练数据集及使用中遇到的问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/359713

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下