用于物体识别和跟踪的下游任务自监督学习-1-引言

2023-10-10 21:44

本文主要是介绍用于物体识别和跟踪的下游任务自监督学习-1-引言,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一:引言:

图像和视频理解是计算机视觉应用中的基本问题,旨在使机器能够像人类一样解释和理解视觉数据。这些问题涉及识别图像和视频中的对象、人物、动作、事件和场景。如图1.1-(a)所示的图像识别任务包括对象检测[1]、实例[7]、语义[8]或全景分割[9],以定位对象、识别其边界并预测图像帧中所有事物的像素类别。姿态和深度估计技术[10]预测图像中对象的关键点/姿态和深度。典型的挑战关于图像理解任务是物体外观、姿态、尺度以及图像中杂乱和遮挡的存在的巨大可变性。另一方面,视频理解问题涉及对单个图像的预测的时间连接。例如,多对象跟踪[12]建立对象之间的时间关系以及跨视图数据关联[11]连接视频序列中的多视图信息。图1.1(b)-(c)显示了视频理解任务的一个示例,其中两个相机之间的时间关联使用单独的图像识别结果,并在视图中保持唯一的目标身份,现代机器学习技术使用大量标记数据来处理这些任务。然而,在现代计算机视觉应用中,图像和视频理解技术在不利用手动标签或使用一些手动标签的情况下解决复杂的现实世界任务是一个具有挑战性的问题。

解决大型数据集必要性的流行方法包括:

i)自监督学习(SSL)[13]、用于对象检测的半监督学习(semi-SL)[14]和具有挑战性的开销视角下的实例分割任务[15];

ii)用于在具有挑战性数据集上推广全景分割[16]任务的SSL,

iii)用于时空判别嵌入的不确定性感知多任务学习,以解决多对象跟踪和分割[17],以及

iv)用于视频监控[18]和3D姿态估计[11]的无监督多视图关联。

    使用手动标签是为特定任务设计深度卷积神经网络(CNN)模型的一种流行策略。然而,当数据域随时间和位置频繁变化时,这种策略更具挑战性,计算机视觉应用程序就是如此,如视频监控、自动驾驶汽车或农业自动化。现有的完全监督工作在这些应用中的局限性促使我们开发自监督/无监督学习方法来解决图像/视频理解问题。解决域更改问题的最流行技术之一是SSL,它调整模型以在新域中进行预测,而无需访问手动生成的标签。在图像/视频识别问题中,多任务学习是另一种策略,其中数据或任务相关的不确定性有助于有监督[10]或无监督模型以便与单个任务策略相比更好地收敛。

    图像/视频理解算法的最终目标是解决更高级别的问题(也称为下游任务),例如使用多个相机的多个对象跟踪[19]。尽管如此,这些算法可能还需要大量的手动注释。本文旨在以自监督/无监督的方式解决图像理解问题,如多目标检测和分割,以及视频理解问题,例如多视图跟踪和关联问题。

    基于公开可用数据集的预训练模型必须具有足够的鲁棒性,以解决新的具有挑战性的数据集中的类似情况。领域自适应方法[20]在解决这一问题时变得很流行。SSL[21]和Semi-SL算法[22]被广泛用于将模型知识转移到新的数据域,而不是使用昂贵的手动注释从头开始训练模型。

这些领域自适应方法目前用于解决具有挑战性的下游任务和骨干特征。

1.1问题陈述

本文的主要贡献是新颖的学习技术,以减少对大量手动注释的需求。更具体地说,它解决了以下五个问题

1.1.1问题陈述#1

对于下游任务特定于数据集的预训练卷积神经网络在不熟悉的相机视角下表现不佳。在提出的目标检测器[1,6]中,通过利用监督学习技术使用骨干网络的多尺度特征来解决下游任务。因此,基于细胞神经网络的检测器很难在不熟悉的摄像机视角下预测先前学习的目标类别精确的定位和精确的形状预测是拥挤监视应用中高层决策问题的四个关键。

对于单目[23]或多视图跟踪[11]应用,不同相机网络[18]中的俯视视角、局部可见性、相机角度变化等挑战降低了时间信息关联的一致性。我们提出了一种数据增强技术,其中同一输入帧的多个推断生成新的增强目标分布,并估计可能的未知位置。,

当使用大型手动注释数据集[24]进行训练时,大多数基于深度学习的检测[14]和分割模型[7]都具有高精度现代深度学习模型利用数据扩充在训练过程中学习更多的例子,并在看不见的领域进行迁移学习。然而,大多数增强技术都改进了主干特征学习,这只是间接地提高了下游任务的性能。尽管简单的几何变换可以改进下游任务预测,但很少有系统的方法从基于变换的增强中引导深度模型。因此,在目标2和3中,我们解释了如何有效地转移深度CNN模型学习中的知识,以解决不熟悉数据集中的对象检测问题。

1.1.2问题陈述#2

在多视图场景理解中,检测或分割模型需要大量的人工注释来了解不同的视角或领域。由于视角变化的挑战,在公开可用的大规模数据集[24]上训练的预训练模型[7]难以检测部分遮挡或小物体。在大多数计算机视觉应用程序中,典型的方法是使用人工注释的标签来微调模型以适应新的数据域。然而,这种方法依赖于繁琐且昂贵的人工注释过程和特定于部署的训练数据。例如,视频监控系统的巨大可变性和对摄像头特定调整的依赖性需要使用手动标签对监控模型进行部署特定的微调。获得这些昂贵的手动标签是目前广泛采用基于深度神经网络的模型进行此类应用的主要障碍。

为了克服这一挑战,我们打算使用目标1中提出的算法来设计一种新的自监督算法该算法使用自动生成的伪标签和不可见数据上的网络预测不确定性来更新模型。

1.1.3问题陈述#3

对于语义预测,当预先训练的模型不知道数据域时,迁移学习是具有挑战性的。对于语义或实例分割应用[7,9],一种常见的方法是使用手动标签来训练深度CNN。为了从监督模型中实现高质量的预测,有时需要计算昂贵的后处理算法[25]。然而,这种模型不能推广到实质上不同的数据集,特别是在存在变化的照明、相机视角或背景杂波的情况下。我们打算设计一种使用自动生成的增强语义伪标签的SSL方法,这增加了模型对感兴趣对象的敏感性。所提出的主动学习策略(目标3)减少了具有挑战性的数据集的语义不确定性,并降低了语义标记成本。所提出的方法可以在不降低性能的情况下避免昂贵的后处理方法。

1.1.4问题陈述#4

传统的多目标分割和跟踪方法利用监督学习,并采用单独的运动和外观模型来执行关联,但无监督联合学习的多任务模型可以提高跟踪一致性多目标分割和跟踪算法[26,12]通常采用监督学习技术来生成有区别的嵌入特征,然后应用基于复杂目标运动模型的关联技术。对人工注释的依赖性限制了现有方法对现实世界问题的适用性。同样,个体运动和外观模型的监督学习未能产生令人满意的跟踪一致性[27]。然而,对于许多真实世界的应用程序,联合时空嵌入的任务依赖性不确定性感知学习使得使用无监督聚类来执行数据关联成为可能。时空嵌入增加了多个对象.

1.1.5问题陈述#5

对于多摄像机网络来说,实时多目标跟踪是一项挑战,因为现代深度学习架构在高分辨率复杂视觉数据中执行检测时具有很高的计算要求。对于在多摄像机网络中跟踪多个对象,典型的策略[28,11]是使用单摄像机跟踪器(SCT),然后在2D或3D空间中执行多摄像机关联。尽管外观特征被广泛用于跨相机执行关联,但在高架相机视图中,跨相机匹配变得具有挑战性,并且计算复杂性相应增加。为了解决多摄像机跟踪中的这些限制,我们打算设计一个框架(目标5)来执行实时单摄像机检测、跟踪和多摄像机关联。优化内存资源,并行化内部检测和跟踪过程,使实时处理多摄像头监控任务成为可能。并行计算.

1.2目标

在本文中,我们解决了五个关键挑战:i)多对象检测和分割中的视角变化,ii)用于多对象检测、分割和跟踪的半监督/自监督/无监督学习,iii)用于语义和全景分割的SSL,iv)无监督多视图关联,v)图像/视频理解问题中的实时多摄像机多目标跟踪。这些挑战体现在以下五个研究目标中。

目标1:开发一种测试时间数据增强算法,以提高基于区域建议的检测器的性能。

该目标旨在通过提高最先进的目标检测和分割算法对感兴趣目标的灵敏度来提高其性能。当前的检测器和后处理算法不能在8个显著的透视失真下检测目标。因此,我们的目标是开发一种基于多重推理的聚类/投票算法,以在几何失真的场景中识别目标,而无需以适用于任何检测器的方式进行额外训练,作为一种稳健的后处理算法。这种基于无监督聚类的数据增强算法也减少了错误检测。它激励我们设计一种自监督算法,该算法在自监督训练期间使用目标1的结果作为高质量的伪标签生成步骤。

目标2:设计一种自监督学习技术,以克服在多视图场景理解中对人类注释的依赖

基于深度细胞神经网络的检测器通常使用标记数据进行训练,以解决特定应用中的检测问题。该模型需要使用新标记的数据进行微调,以便部署在新的应用程序或相机网络中。然而,手动标记任务对于大规模应用来说是昂贵且乏味的。为了解决新领域或看不见的数据分布中的标记成本和迁移学习挑战,我们设计了一种SSL算法,该算法使用自动生成的伪标签来更新模型。SSL的最终目标是通过简单地使用未标记的数据和初始模型权重,在现实世界的应用程序中将学习从一个领域转移到另一个领域。

目标3:设计一种用于语义分割的自监督学习策略。

我们探索了我们的自监督方法在语义分割中的有效性,而不依赖于大量的标记数据和计算昂贵的后处理方法。我们的目标是将知识从初始模型稳健地转移到任何具有挑战性的数据集,而无需执行乏味的语义标记工作和推广任何数据集的学习。

目标4:设计一种基于任务相关不确定性的无监督时空特征学习技术。

无监督学习是机器学习的另一个领域,模型在不利用标记数据的情况下进行学习。在多目标跟踪和分割应用程序中,为每条轨迹生成标记数据既昂贵又耗时。为了解决这些问题,我们建议设计一种时空聚类方法来跟踪和分割视频序列中的单个目标实例。由于嵌入式特征提取和小轨迹关联独立于检测器训练,我们可以很容易地将这种无监督的轨迹生成方法与任何预先训练的多任务预测器一起使用,而无需使用手动轨迹标签。因此,我们的多目标跟踪和分割算法可以应用于任何数据集,只要检测器在新的领域中表现良好。目标2中的SSL方法可以在新的场景中提高检测器的性能。

目标5:实现一个实时多摄像机多目标跟踪系统。

我们将我们提出的基于SSL的模型应用于多摄像机跟踪算法中。我们通过有效利用中央处理单元(CPU)和图形处理单元(GPU)的计算,设计了一种实时多摄像头轨迹关联(MCTA)方法。实时MCTA的目标是将目标1和目标2结合起来,用于真实的多摄像机跟踪系统,在这些系统中,为每个设施创建标记数据可能具有挑战性。关于跨相机的多个对象身份的一致性和大规模相机网络的计算复杂性,我们的目标是将MCTA应用于其他应用领域,如无人机(UAV)对象跟踪、自动驾驶车辆和基于视频分析的监控系统。

1.3论文贡献

到目前为止,本文所描述的研究成果已以以下三篇同行评审论文的形式发表:1。A.Siddique,R.J.Mozhdehi,H.Medeiros,“用于多对象跟踪和分割的无监督时空潜在特征聚类”,英国机器视觉会议,2021年。

2.A.Siddique,H.Medeiros,“在安检点使用多个高架摄像头跟踪乘客和行李物品”,载于IEEE系统、人类和控制论汇刊:系统,2022年12月。

3.A.Siddique、A.Tabb和H.Medeiros,“用于多种果树花种的泛光学分割的自监督学习”,载于IEEE机器人与自动化快报,第7卷,第4期,2022年10月。

1. A. Siddique, R. J. Mozhdehi, H. Medeiros, “Unsupervised Spatio-temporal Latent Feature Clustering for Multiple-object Tracking and Segmentation", in British Machine Vision Conference, 2021.
2. A. Siddique, H. Medeiros, “Tracking Passengers and Baggage Items using Multiple Overhead Cameras at Security Checkpoints”, in IEEE Transactions
on Systems, Man, and Cybernetics: Systems, Dec. 2022.
3. A. Siddique, A. Tabb and H. Medeiros, “Self-Supervised Learning for Panoptic Segmentation of Multiple Fruit Flower Species,” in IEEE Robotics and Automa-tion Letters, vol. 7, no. 4, pp. 12387-12394, Oct. 2022.

用于多目标跟踪和分割的无监督时空聚类。在[17]中,我们提出了一种无监督的时空潜在特征聚类算法,以提高跟踪一致性,而无需利用手动注释进行多对象跟踪和分割。我们通过在鲁棒Re-ID方法中使用不确定性感知的潜在特征来扩展该方法以解决遮挡问题。我们还利用SSL技术来增强多对象跟踪和分割(MOTS)任务的多对象检测。我们的端到端算法减少了MOTS应用程序新领域中的跟踪故障。我们的研究基于自监督/无监督学习技术,它适用于看不见的视频数据集,对于这些数据集,获得手动注释非常繁琐且昂贵。

自我监督的检测学习。这项工作的另一个应用是基于计算机视觉的视频分析方法,以自动化筛查过程,并减少空中运输安全官员的认知负荷-港口安全检查点。该捐款是一个名为“关联行李和特定乘客”(CLASP)的多机构项目的一部分。乘客及其相应的物品,如手提包、行李箱和背包,在配备了多个头顶摄像头的机场安检点进行跟踪和关联。我们使用了一个预先训练的多目标检测器模型,并提出了一种SSL技术[18],其中我们使用测试时数据增强、建议回归和基于无监督聚类的伪标签生成来更新初始检测模型。我们的学习技术减少了知识从一个安全检查点转移到另一个检查点的过程中的实例不确定性,而不需要使用大量的人工标签。根据场景在视角失真、尺度和外观变化方面的复杂性,我们的方法可以很容易地应用于完全自监督或半监督的情况。

多品种果花分割的自监督学习。我们开发了另一种SSL技术来解决多任务模型[9]的语义不确定性预测问题,该模型用于多物种水果花分割和计数应用。该方法也有助于估计果园的开花统计数据,以优化水果生产。为了将模型知识从一个果园转移到另一个果园,我们提出了一种用于伪标签生成的基于轮换的测试时间数据扩充策略和用于模型更新的类似扩充方法。

我们还采用了语义细化策略[25]来提高伪标签的质量,然后使用具有旋转不变性的鲁棒自动生成标签更新模型,即即使我们旋转原始输入帧,预测分数和分割轮廓也保持稳定。

我们发现,与该应用程序最近的基线相比,有了显著的改进,并提出了一个简单的策略来计算多个果园中的花朵数量我们的方法仅使用标记数据在单个果园数据集上初始化多任务模型。尽管如此,我们的完全自我监督方法减少了对多物种花卉数据集繁琐而昂贵的人标签的依赖。

多摄像机Tracklet关联。我们设计了一种实时无监督的多视图数据关联技术来解决高架摄像机网络中的多目标跟踪和关联问题。所提出的检测跟踪算法由自监督检测器和单摄像机跟踪器组成,包括鲁棒的重新识别(Re-ID)模块。跨摄像机关联是多摄像机跟踪的核心组成部分。我们使用单个摄像机轨迹的2D投影,并解决了具有重叠视场的摄像机对的二部分关联问题。使用图优化方法获得了整个网络中摄像机对上轨迹的一对一匹配,以确定乘客身份在摄像机之间的切换。由于我们的方法只使用目标的轨迹和基于图像变换的单应性,而不依赖于相机校准和头顶目标外观,因此我们的跨相机关联算法是可扩展的,即,我们可以基于可用的计算资源增加网络大小。这种方法适用于不同的完全/部分重叠的网络,不受相机布局的限制,也不需要昂贵的人工标签

实时多摄像头跟踪。最后,为了将本文的核心组件应用于实际应用,我们提出了一种实时多摄像机跟踪(MCT)算法。这项工作也是CLASP项目的一部分,多个机构负责开发算法来解决问题的不同方面。沿着这个方向,我们开发了半监督检测器、自监督SCT和MCTA的在线版本,这些版本使用几个GPU将输入视频帧处理为多摄像机批次。我们为每个相机分配一个GPU进程,以生成实时多对象检测和跟踪。为了组合每个GPU进程的结果,我们将处理后的数据传输到另一个并行CPU进程中,以实时执行多相机关联。

1.4 论文组织

本文共分七章。在第一章中,我们介绍了计算机视觉在现实世界中的应用领域,以及本文提出的方法所解决的四个主要问题。第2章包含与一些计算机视觉概念相关的背景、处理视觉数据的机器学习技术、卷积神经网络模型的设计方法,以及多目标检测、分割、单相机和多相机跟踪应用中现有学习技术的总结。第3章描述了一种新的基于数据扩充的伪标签生成技术,以及所提出的用于多目标检测和实例分割任务的不确定性感知自监督学习算法。

本文共分七章。在第一章中,我们介绍了计算机视觉在现实世界中的应用领域,以及本文提出的方法所解决的四个主要问题。第2章包含与一些计算机视觉概念相关的背景、处理视觉数据的机器学习技术、卷积神经网络模型的设计方法,以及多目标检测、分割、单相机和多相机跟踪应用中现有学习技术的总结。第3章描述了一种新的基于数据扩充的伪标签生成技术,以及所提出的用于多目标检测和实例分割任务的不确定性感知自监督学习算法。第4章重点介绍了将我们的自监督学习技术应用于多物种水果花分割应用中的全景分割任务。第5章描述了我们提出的同时分割和跟踪的方法

这篇关于用于物体识别和跟踪的下游任务自监督学习-1-引言的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/183279

相关文章

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

使用C#如何创建人名或其他物体随机分组

《使用C#如何创建人名或其他物体随机分组》文章描述了一个随机分配人员到多个团队的代码示例,包括将人员列表随机化并根据组数分配到不同组,最后按组号排序显示结果... 目录C#创建人名或其他物体随机分组此示例使用以下代码将人员分配到组代码首先将lstPeople ListBox总结C#创建人名或其他物体随机分组

什么是cron? Linux系统下Cron定时任务使用指南

《什么是cron?Linux系统下Cron定时任务使用指南》在日常的Linux系统管理和维护中,定时执行任务是非常常见的需求,你可能需要每天执行备份任务、清理系统日志或运行特定的脚本,而不想每天... 在管理 linux 服务器的过程中,总有一些任务需要我们定期或重复执行。就比如备份任务,通常会选在服务器资

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss