YOLO v10 是目前最好的吗?

2024-06-14 09:44
文章标签 最好 yolo 目前 v10

本文主要是介绍YOLO v10 是目前最好的吗?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击下方卡片,关注“小白玩转Python”公众号

ef161ea3d1e215df8faf8706835197ea.png

YOLO(You Only Look Once,你只看一眼)因其快速的对象检测算法而闻名。它的速度和效率使其成为计算机视觉(CV)领域中对象检测的标准方法。YOLO 可以实时处理图像,使其非常适合自动驾驶、安全监控和零售分析等应用。

YOLO 是如何工作的?

eb344701e48d5e5c38e10193a826605f.jpeg

考虑图像分类的场景,目标是确定图像是否包含狗或人。当涉及到图像分类,我们应该确定它是否是狗还是人 - 如果是狗,就是1,如果是人,就是0,就像上面的图像 - 只有狗存在!但在对象检测算法中 - 我们考虑一种叫做对象定位的东西。除了上述解释的图像分类数据,我们还传递了边界框。

边界框

{Pc, Bx, By, Bw, Bh, C1, C2}
{1 , 50, 70, 60, 70, 1 , 0}
  • Pc — 类别的概率,如果两种类别都不出现,它将是0,否则是1。

  • Bx 和 By — 注释框的中心坐标 - 它将覆盖正好只有类别 - 在这个例子中是狗。

  • Bw 和 Bh — 注释框的宽度和高度。

  • C1 — 狗类别 - 因为狗存在 - 它是1。

  • C2 — 人类别 - 因为人不存在 - 它是0。

显然,如果没有对象 - Pc 将是0,其余的将没有值!

如果我们在图像中有多个对象怎么办?当图像中存在多个对象时,YOLO 将图像划分为网格,然后预测每个网格单元的边界框和类别概率。允许模型同时检测和定位多个对象。例如,如果网格大小是 4x4,每个单元将产生一个预测向量。假设每个预测向量由 7 个单元组成(Pc, Bx, By, Bw, Bh, C1, C2),整体预测张量的大小将是 4x4x7。

如果图像包含重叠对象,如一个人抱着一只狗,也会使用相同的方法。

训练神经网络由于图像及其相应的向量都已获得 - 我们可以将图像样本视为输入数据 - 其相应的向量样本作为输出数据传递给神经网络。现在这些数据样本及其相应的输入和输出矩阵可以输入到神经网络中 - 当涉及到隐藏状态中的节点数量、激活函数等时,可以调整和调整神经网络!获得最佳组合以获得最佳准确率。

输出将是模型所做的网格单元分隔的大小。如果是 4x4,输出将是 16 个向量。

它之所以被称为 YOLO - You Only Look Once  - 是因为模型在单次前向传播中完成所有预测。这有效地允许模型快速检测模式和对象,无论网格单元的数量如何。

对象检测模型的问题尽管 YOLO 可以被认为是用于对象检测的最佳模型之一 - 但所有模型都不完美。当涉及到 YOLO 时,可能会有重叠边界框的问题。

0db770d876e02124fb9ff570d024e93e.png

考虑上面有两个人的图像:一个人和一只狗。YOLO 最初可能会为这些对象检测到多个边界框,在上述背景下 - 结果是五个边界框,而理想情况下应该只有两个(每个对象一个)。

边界框重叠

当多个预测覆盖同一个对象时,就会发生重叠的边界框。这种冗余需要解决,以确保模型输出最准确和最小的边界框集。

交集比并集(IoU)

为了解决重叠的边界框问题,YOLO 使用了一种称为交集比并集(IoU)的技术。IoU 是一种度量两个边界框之间重叠的指标。

IoU = Intersect Area / Union Area
  • 交集面积:两个边界框重叠的区域。

  • 并集面积:两个边界框合并覆盖的总面积。

如果两个边界框完全重叠,IoU 值是 1。如果它们根本不重叠,IoU 值是 0。

非最大抑制(NMS)

为了消除冗余的边界框,YOLO 应用了非最大抑制(NMS):

  1. 计算置信度分数:每个边界框都被分配一个置信度分数,代表对象存在的可能性。

  2. 选择最高置信度框:选择置信度分数最高的边界框。

  3. 抑制重叠框:任何与选定框的 IoU 超过某个阈值(例如,0.5)的边界框都被抑制(即,移除)。

  4. 重复:这个过程对剩余的框重复进行,直到只剩下最自信、不重叠的框为止。

但 YOLO v10 消除了 NMS 的需求 - 简化了预测过程,提高了效率,而不影响模型的准确性!

YOLO v10:性能和比较

最新版本的 YOLO,YOLO v10,由于几个引人注目的原因,被认为是最佳和最改进的版本 - 这里是为什么:

  1. 更高的准确性 - 考虑到开篇的第一张图表 - 我们可以注意到,与以前的版本甚至其他模型相比,该模型产生了更高的 COCO AP 水平!清楚地表明 - YOLOX 模型(特别是 YOLOX-L) - 总体上表现最佳。

  2. 改进的延迟 - (延迟是模型对输入的响应时间)即使准确性更高 - YOLO v10 保持低延迟 - 使其灵活且有益于实时应用!

  3. 更好的对象定位 - 对象检测的主要挑战是处理重叠的边界框。幸运的是,YOLO v10 模型结合了高级技术,如 IoU 和 NMS,有效地处理重叠框,以获得更准确的边界框预测。导致更准确的对象检测模型!

  4. 更低的参数计数 - 在开篇的第二张图表中 - 我们可以得出结论,YOLO v10 模型可以用更少的参数准确预测。使其适合在资源受限的环境中部署。尽管我们可以指定一个 YOLO v10 模型是最好的 - 这都取决于用例。

以下是 YOLO v10 模型的所有变体列表 - 每个都有其自己的优势:

401e56ce2e89c85c654ea911f2c41d23.png

结论

虽然 YOLO v10 在准确性、延迟和效率方面都有所提高 - 但一切都取决于你正在处理的用例,因为对于每个用例,可能都有一个最适合的模型!尽管如此,根据提供的证据 - YOLO v10 作为领先的对象检测模型脱颖而出!

官方 GitHub :https://github.com/THU-MIG/yolov10?tab=readme-ov-file

论文:https://arxiv.org/abs/2405.14458

·  END  ·

HAPPY LIFE

f4144dfaf4b5104c088062702650747e.png

本文仅供学习交流使用,如有侵权请联系作者删除

这篇关于YOLO v10 是目前最好的吗?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1060048

相关文章

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

[数据集][目标检测]血细胞检测数据集VOC+YOLO格式2757张4类别

数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2757 标注数量(xml文件个数):2757 标注数量(txt文件个数):2757 标注类别数:4 标注类别名称:["Platelets","RBC","WBC","sickle cell"] 每个类别标注的框数:

简说目前市面上最流行的“AI Agentic”

背景 当吴恩达在布道完著名的Agent设计模式后 他于不久后又引领了AI界的开发们开始关注另一种高级开发模式,即"Agentic",吴恩达多次反复强调:“Agentic是比Agent更具未来”。 那么什么是Agentic呢? 什么是AI Agentic AI Agentic即代理人工智能。 当我们谈论代理人工智能时,其实指的是一类目标实现自主操作的人工智能系统。这意味着,设计用于做

YOLOv8/v10+DeepSORT多目标车辆跟踪(车辆检测/跟踪/车辆计数/测速/禁停区域/绘制进出线/绘制禁停区域/车道车辆统计)

01:YOLOv8 + DeepSort 车辆跟踪 该项目利用YOLOv8作为目标检测模型,DeepSort用于多目标跟踪。YOLOv8负责从视频帧中检测出车辆的位置,而DeepSort则负责关联这些检测结果,从而实现车辆的持续跟踪。这种组合使得系统能够在视频流中准确地识别并跟随特定车辆。 02:YOLOv8 + DeepSort 车辆跟踪 + 任意绘制进出线 在此基础上增加了用户

[数据集][目标检测]智慧农业草莓叶子病虫害检测数据集VOC+YOLO格式4040张9类别

数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):4040 标注数量(xml文件个数):4040 标注数量(txt文件个数):4040 标注类别数:9 标注类别名称:["acalcerosis","fertilizer","flower","fruit","grey

Java 文件读写最好是用buffer对于大文件可以加快速度

参考例子: FileReader fileReader = new FileReader(filename);BufferedReader bufferedReader = new BufferedReader(fileReader);List<String> lines = new ArrayList<String>();String line = null;while ((line =

概率DP (由一道绿题引起的若干问题。目前为一些老题,蒟蒻的尝试学习1.0)

概率DP: 利用动态规划去解决 概率 期望 的题目。 概率DP 求概率(采用顺推) 从 初始状态推向结果,同一般的DP类似,只是经历了概率论知识的包装。 老题: 添加链接描述 题意: 袋子里有w只白鼠,b只黑鼠,A和B轮流从袋子里抓,谁先抓到白色谁就赢。A每次随机抓一只,B每次随机 抓完一只后 会有另外一只随机老鼠跑出来。如果两个人都没有抓到白色,那么B赢。A先抓,问A赢得概率。 w b 均在

【YOLO 系列】基于YOLOV8的智能花卉分类检测系统【python源码+Pyqt5界面+数据集+训练代码】

前言: 花朵作为自然界中的重要组成部分,不仅在生态学上具有重要意义,也在园艺、农业以及艺术领域中占有一席之地。随着图像识别技术的发展,自动化的花朵分类对于植物研究、生物多样性保护以及园艺爱好者来说变得越发重要。为了提高花朵分类的效率和准确性,我们启动了基于YOLO V8的花朵分类智能识别系统项目。该项目利用深度学习技术,通过分析花朵图像,自动识别并分类不同种类的花朵,为用户提供一个高效的花朵识别

笔试强训,[NOIP2002普及组]过河卒牛客.游游的水果大礼包牛客.买卖股票的最好时机(二)二叉树非递归前序遍历

目录 [NOIP2002普及组]过河卒 牛客.游游的水果大礼包 牛客.买卖股票的最好时机(二) 二叉树非递归前序遍历 [NOIP2002普及组]过河卒 题里面给的提示很有用,那个马的关系,后面就注意,dp需要作为long的类型。 import java.util.Scanner;// 注意类名必须为 Main, 不要有任何 package xxx 信息publ

水面垃圾检测数据集 3000张 水面垃圾 带标注 voc yolo

数据集概述 该数据集包含3000张图像,专注于水面垃圾的检测。数据集已经按照VOC(Visual Object Classes)和YOLO(You Only Look Once)两种格式进行了标注,适用于训练深度学习模型,特别是物体检测模型,用于识别水面上的各种垃圾。 数据集特点 多样性:包含3000张图像,涵盖了多种类型的水面垃圾,确保模型能够识别各种类型的垃圾。双标注格式:提供VO