ReID中PCB模型输出维度_带你入门多目标跟踪(四)外观模型 Appearance Model

本文主要是介绍ReID中PCB模型输出维度_带你入门多目标跟踪(四)外观模型 Appearance Model,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

行人跟踪作为MOT中的一个典型的问题,十分具有研究价值,本系列文章以行人跟踪为例来介绍MOT。

在讲解外观模型问题前,首先需要对MOT的各个部件有一个大概的了解。在设计一种MOT算法时,有两点问题需要格外关注。

一是如何测量在视频帧中各目标之间的相似性(measure similarity between objects in frames);

二是如何基于第一点测量出的相似性,进行视频中目标ID的恢复(how to recover the identity information based on the similarity measurement between objects across frames.)。

35e4a297511cda9e7863eb5e91c2ffe3.png
一个典型MOT系统包含的部件

第一点中包括了外观模型运动模型交互模型排斥模型遮挡模型等(modeling of appearance, motion, interaction, exclusion, and occlusion)。

至于第二点,其实是选取何种推断方式。以往论文里会比较多的使用概率推理(Probabilistic Inference)或确定性最优化(Deterministic Optimization)的方法。

上篇文章讲的匈牙利算法和KM算法就属于Deterministic Optimization中的二分图匹配算法(Bipartite graph matching)。

除二分图匹配以外,Deterministic Optimization中还有很多算法可以应用在MOT中,比如动态规划(Dynamic Programming)、最小费用最大流算法(Min-cost Max-flow)、条件随机场(Conditional Random Field)、MWIS相关算法(Maximum-weight Independent Set)等等。感兴趣的读者可以自行找资料学习。

P.S. 这些术语以英文为准,若发现翻译错误,还请了解的朋友帮忙指正。


这篇文章將针对第一点中的外观模型展开讲解。

作为第一个讲解的部件,外观模型的重要性不言而喻。通俗地讲,外观建模问题就是如何抽取有鉴别力的特征

”良好的特征会简化问题“ ”特征好了之后,调参的难度会降低一些“ “检测越好,特征越好,跟踪质量就越高”
——某MOT群日常聊天中大佬们常说的话

我个人把外观模型分为两类,一类是深度学习之前的传统方法,通过手工设计算法来抽取特征,比较有代表性的是KLT算法(Kanade-Lucas-Tomasi )。另一类就是深度学习时代的基于CNN抽取特征,许多ReID的网络都能用作这一类的特征抽取器。

学界目前研究重点是基于CNN进行特征抽取,我在这里对第一类只做简单介绍。

1. 手工设计算法抽取特征

以比较有代表性的KLT为例,KTL最早的雏形是Lucas and Kanade 的工作[1] ,之后由Tomasi and Kanade在[2]中进一步发展,之后也是最知名的工作就是Shi and Tomasi 发表在CVPR94上的[3]

9d29daed2a7e16813b735807fb3fbc70.png
图中“小蓝×”就是KLT算法选取的特征点

其核心思想是寻找一些适合用来跟踪的特征点,根据这些特征点,进行下一步的跟踪。它认为一个好的特征点的定义就是能更容易被跟踪。其原理,简而言之,是通过检查每个2乘2梯度矩阵的最小特征值来定位好的特征,并且使用Newton-Raphson方法跟踪特征,以最小化两个窗口之间的差异。

Reference:

[1] Bruce D. Lucas and Takeo Kanade. An Iterative Image Registration Technique with an Application to Stereo Vision. International Joint Conference on Artificial Intelligence, pages 674-679, 1981.

[2] Carlo Tomasi and Takeo Kanade. Detection and Tracking of Point Features. Carnegie Mellon University Technical Report CMU-CS-91-132, April 1991.

[3] Jianbo Shi and Carlo Tomasi. Good Features to Track. IEEE Conference on Computer Vision and Pattern Recognition, pages 593-600, 1994.

2. 基于CNN提取特征

在深度学习大火的今天,基于CNN的特征抽取获得了比手工设计算法提取特征更好的效果。对于MOT(行人跟踪),一个不错的方法是使用行人重识别(Re-Identification/ReID)的网络作为特征抽取器。行人重识别算法通常提取行人图像特征,对特征进行距离度量,从而判断是否是同一个人。 这些特征就可以用来辅助我们进行行人跟踪。若两个检测框框出的是同一个行人,那么这两个向量的距离会比较小;若不是同一个行人,这两个向量的距离会比较大。

192189f616c0383bb0ddf3d58b51beec.png
使用ReID网络抽取的特征进行距离可视化

若将这些距离进行可视化,就可以很清晰地看出效果,类似的目标被分在了相近的位置。

读者可以设想,在视频的前后两帧中,我们已经通过目标检测的方法得到了若干检测框,之后把检测结果都通过ReID的网络抽取成特征,如果ReID的网络鉴别力足够高,我们可以判断这些向量相互之间的距离,直接完成所有目标的配对,甚至无需其他MOT组件和Inference过程!

当然,这只是理想情况,虽然ReID能完成行人鉴别的功能,但其效果还不能完美到替代MOT任务。我们可以认为ReID学习到了一些对行人进行鉴别的能力,这种能力可以辅助我们进行多目标跟踪,或者提高我们已有跟踪算法的效果。所以更多时候,在MOT中将ReID的网络作为一个组件,会是一个更合适的选择。

举个例子来简单介绍一下ReID的网络。一个比较经典的方法是使用Triplet loss来训练一个去掉了全连接层的ResNet,最后一层卷积层的输出就是我们需要的特征。

ec7b423be2a9d86e5839e4c818e98932.png
图示最右为ResNet-34,去掉最后一层FC层即可成为特征抽取器

Triplet loss是深度学习中的一种损失函数,用来训练差异性较小的样本,使用锚(Anchor)示例、正(Positive)示例、负(Negative)示例构成一个三元组,通过训练使Anchor与Positive的特征距离减小,使Anchor与Negative的距离增大,通过这种方式来学习出一个对行人有鉴别力的网络。再利用这个网络,就能抽取出我们想要的特征

ReID目前是一个很火爆的研究方向,各种新文章新结构层出不穷,这里就不做详细介绍了。这些结构基本都可以看成一个特征抽取器,用在MOT上。有兴趣的读者可以自行研究。

值得提醒的一点,建议大家选择模型时,尽量挑选鲁棒性高的模型。个别模型已经在某数据集上严重过拟合,这种模型对于我们是没有太大帮助的,毕竟我们是要将这个模型运用在它从未学习过的数据集上。

若使用ReID数据集进行外观模型的训练,个人建议多使用一些数据集,还可适当加入一些自己收集的数据,这样可以获得鲁棒性更高的模型。我个人习惯是使用Market1501,Duke,CUHK03进行混合,再加入自己的数据来训练外观模型。

当然,还可以采用多种外观模型,再进行各种模型融合,也是很一种很有效的手段。集成学习是当之无愧的刷分大杀器。

对外观模型的介绍基本就是这些,个人认为,只要能用来提取框内目标有鉴别力特征的模型,都可以用作外观模型,用来提高MOT的效果,不仅限于文中介绍到的这些。甚至外观模型这个概念本身,大家都不必太过执着,能抓到耗子的就是好猫,特征为王,能抽到好特征的模型就是好模型

大家有什么问题可以在下面评论,欢迎交流讨论。码字仓促,文中若有错误还请大家不吝指教,多多包涵。转载请联系作者并注明出处,侵权必究。

这篇关于ReID中PCB模型输出维度_带你入门多目标跟踪(四)外观模型 Appearance Model的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/676594

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言