Re-ID----读罗浩《基于深度学习的行人重识别研究进展》

2024-01-05 06:50

本文主要是介绍Re-ID----读罗浩《基于深度学习的行人重识别研究进展》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基本概念与发展过程

(1)Re_ID 是图像检索的一个子问题,主要应用于视频监控,智能安防

(2)

1)早期手工设计视觉特征(如何获得更好的相似度度量),现在主要用深度学习的方法自动进行。

A:手工特征:颜色,HOG(Histogram of oriented gradient),  SIFT (Scale invariant   feature transform),LOMO (Local Maximal Occurrence). 

B:相似度度量:XQDA (Cross-view Quadratic Discriminant Analysis), KISSME   (Keep It Simple and Straightforward Metric Learning)

C:传统方法的缺点:难以适应复杂场景,大数据量,传统度量学习求解困难。

2)现在利用深度学习,用欧式距离即可进行相似度度量。初期为单帧图片的全局特征。根据损失的类型不同可以分为:表征学习和度量学习。后引入局部特征和序列特征。最近的GAN在扩充数据集和解决图像偏差问题上有不错的效果。

整体来说,现大多数为监督学习,而迁移学习,半监督学习,无监督学习也值得研究。Re_ID主要是行人检测和行人重识别。只不过行人检测技术已经成熟,大家将其作为先验知识。将重点放在重识别。

主要数据集

 

 

 

其中有红外数据集。

各数据集的行人检测方法:Deformable Part-based Model(DPM),手动标注,Faster RCNN 检测器

准确度的评估:累计匹配(Cumulative Match Characteristics, CMC), 平均准确度(Mean Average Precision, mAP)。

行人重识别的深度学习方法

 

  1. 基于表征学习的方法(representation learning):通过看成分类问题和验证问题。网络的最后一层softmax层的结果用以计算表征学习的损失,而前一层FC则是特征向量层。分类问题是输入一张图片来输出它可能分类的概率,而验证问题是输入两张图片,判断是否属于同一行人。  

 

 

  1. 分类网络:常用ID损失和属性损失。即不仅使用行人ID作为标签(IDE),还要使用行人的属性。

ID损失和属性损失的算法一样:

 

 

 

 

 

 

 

 

 

2)验证网络:将经过同一个CNN得到的两张图片的特征向量输入验证网络(两个神经元,多输入,单输出)

验证损失为:(v为网络输出结果向量)

 

 

 基于度量学习的方法:将图片从原始域映射到同一个特征域,定义一个距离度量函数(向前传播时。 使用欧式距离,余弦距离或者曼哈顿距离等等),通过最小化度量损失寻找最优映射(使同一行人距离尽可能小,不同行人距离尽可能大的CNN)。

对比损失

(contrastive loss)

y=1同一行人,y=0不同行人

 

三元组损失(triplet loss)

正负样本距离对和超参

 

改进的三元组损失(improved triplet loss)

加入正样本对之间距离

 

四元祖损失(quadruplet loss)

两个负样本对。推开负样本对时不会太影响固定图片的特征。

 

 

 

难样本:非常不像的正样本和非常像的负样本。

和表征的对比:

度量

表征

看作是在特征空间的聚类

看作特征空间的分界面

末尾无需FC,即对ID数量不敏感。

适合大量数据

(反之)

 

 

 

  1. 基于局部特征的方法:

 

描述

难点

解决

图像切块

将图像从上到下几等分(头,上身,腿等)。使用孪生网络,将被分割好的送入长短时记忆网络,最后融合所有局部特征。

对齐要求较高。

动态对齐网络 AlignedReID

骨架关键点定位

人体姿态关键点进行局部特征对齐

需要额

外的姿态估计模型

Spindle Net 网络

(提取14个关键点,题取7个区域。同原始图,共8个图得到特征。将8个特征的在不同尺度连接。)

(2)全局 - 局

部对齐特征描述子 (Global-Local-Alignment De-scriptor, GLAD)

CNN自动提取全局特征,但仅使用全局性能不能达到要求。

 

 

  1. 基于视频序列的方法

单帧的方法要求图像质量很高 , 这对于相机的布置和使用的场景是一个非常大的限制 。用所有序列的平均池化,最大池化,作为最终特征。这是一个急需解决的问题,但是和单帧方法比无论思路还是多样性都有一定距离。

需要考虑的问题有:

1)帧与帧间运动信息

2)更好特征融合

3)图像帧质量判断

可能解决的问题:

1)噪声较大

2)背景复杂

使用的方法和思路:

融合图像内容和运动信息:CNN提取空间特征,RNN提取时序特征(如:累计运动背景网络AMOC。每一帧送Spat Nets取全局特征,相邻两帧送Moti Nets提取光流特征,两者融合到RNN,通过AMOC题取融合两个信息的特征)。每一帧图像提取特征不同,为跟好融合有DFGP(同前一样,单个深度特征之后,取池化。通过离平均值最近找出最稳定帧,之后即可手动规定权重),深度学习注意力机制。

对图像帧进行质量判断:RQEN以姿态估计为先验知识,对每一帧进行质量判断,将先验结果输出到网络,诱导网络学习更多高质量图像,将高质量打上权重然后叠加。

 

 

  1. 基于GAN的学习方法:

解决问题

描述

方法

扩展训练集

 

 

训练集风格转换

两个风格相互转换,不断对抗,直至收敛。推理阶段则输入图片,进行风格转换。优点是保留了图片的ID信息。

CycleGAN

减小场景差异

前景分割,尽量保留行人信息

PTGAN

行人姿态校正

PGNAN在Market1501

和 DukeMTMC-reID上有最高的rank1

PGNAN

  1.  
  1. 各种方法比较

 

 

表征和度量

优点

缺点

表征学习

数据量不大容易收敛

模型鲁棒性强

训练时间短

ID数量过大时,网络最后一层是维度非常高FC,参数过多,想要收敛十分困难。

度量学习

1.方便扩展新数据集,无需因为ID数量调整网络结构,可以适应数目较大数据集

1.收敛相对困难,虚较为丰富调参经验。

2.收敛训练时间较长。

 

现在很多方法也是将二者相结合进行训练。

全局和局部

优点

缺点

全局特征

1.速度快,适合帧率较高实际应用

1.池化使图像空间信息特征丢失,姿态对不齐,图片不完整,易误识别。

局部特征

信息较为完整,较少对不齐等

1.需要额外姿态点模型

二者较为互补,通常联合使用。对全局和局部分别题取,拼接在一起作为最终特征。

(1.Spindle Net 全局特征和七个局部最后融合

2.AlignedReID 则分别计算两个图像的全局和局部特征距离,加权作为最后空间距离。

3.RQEN也可近似看成)

 

挑战

描述

方法

跨视角造成的姿态多变问题

角度位置不一,姿态多变

预训练的姿态模型实现姿态对齐。

1)GLAD 和 SpindleNet

2)PSE

行人图片分辨率变化

拍摄距离不一致

SING

行人图片遮挡问题

失去部分行人特征,引入干扰特征

行人姿态模型估计可视部分,对可视部分进行特征题取融合

2)深度空间特征重建方法。完整图片经过稀疏表达后可以与不完整图片比较

图像域变化的跨模态重识别

相机,天气,时间,城市,RGB相机与红外相机

GAN

深度零填充模型

典型算法比较

 

挑战与未来

 

方向

描述

解决

构建更加适应真实环境的数据库

数据集不同,模型结果差距加大。

1)高质量提高鲁棒性

2)GAN造数据集

半监督,无监督和迁移学习方法

1)标注代价较高。

2)每个场景训练专门模型很低效

1)半监督,无监督

2)迁移学习

构造更加强大的特征

重排序时间换取准确度

使网络关注关键局部信息,即合理的局部特征

丰富的序列特征

丰富场景下的行人重识别

室外室内

无人超市,商场,地铁

夜间

 

深度网络的可解释性

颜色和轮廓谁影响大

姿态如何对其

光线如何矫正

深度学习的可视化技术

行人重识别与行人检测行人跟踪的结合

不再将行人检测作为先验条件

跨摄像头多目标跟踪是Re_ID一个直接应用。

 

 

 

这篇关于Re-ID----读罗浩《基于深度学习的行人重识别研究进展》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/572015

相关文章

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识