本文主要是介绍【论文筛选】ReID候选调研对象 2020-08-04 (ing),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 关注问题 ReID
- 1、表征学习: 类内变化、类间模糊
- 2、数据泛化:在一个数据集中学习的模型,在新数据集中表现不佳
- 3、训练速度:
- Loss
- 难样本采样三元组损失(Triplet loss with batch hard mining, TriHard loss): 距离最远的正样本距离越来越小, 距离最近的正样本距离越来越大
- 论文: Alexander Hermans, Lucas Beyer, Bastian Leibe. In defense of the triplet loss for person reidentification[J]. arXiv preprint arXiv:1703.07737, 2017
- 边界挖掘损失(Margin sample mining loss, MSML)
- Video based
- 基于视频序列的ReID
- 论文: AMOC: Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang, Shuicheng Yan, Jiashi Feng. Video based person re-identification with accumulative motion context[J]. arXiv preprint arXiv:1701.00193,2017.
- 其他相关论文
- Method
- Spindle Net网络 关节点识别
- 论文: Haiyu Zhao, Maoqing Tian, Shuyang Sun, Jing Shao, Junjie Yan, Shuai Yi, Xiaogang Wang, Xiaoou Tang. Spindle net: Person re-identification with human body region guided feature decomposition and fusion[C]. CVPR, 2017.
- 对遮挡的情况启发 权重标记
- 论文: Song G, Leng B, Liu Y, et al. Region-based Quality Estimation Network for Large-scale Person Re-identification[J]. arXiv preprint arXiv:1711.08766, 2017.
- 其他论文思考的参考思路
- 1、 ReID 全尺度, 局部特征思路 (来自OSNet)
- 2、 相似度度量 距离
- 待查询列表
- 马氏距离
- 对多个特征求平均
关注问题 ReID
1、表征学习: 类内变化、类间模糊
2、数据泛化:在一个数据集中学习的模型,在新数据集中表现不佳
由不同re-ID数据集造成的差距,我们注意到这些差距通常反映在不同的图像样式,如亮度、颜色温度和角度(参见图1)。这些风格差异是由不同的照明条件和相机/设置在不同的摄像机网络特征。
3、训练速度:
Loss
难样本采样三元组损失(Triplet loss with batch hard mining, TriHard loss): 距离最远的正样本距离越来越小, 距离最近的正样本距离越来越大
论文: Alexander Hermans, Lucas Beyer, Bastian Leibe. In defense of the triplet loss for person reidentification[J]. arXiv preprint arXiv:1703.07737, 2017
传统的三元组随机从训练数据中抽样三张图片,这样的做法虽然比较简单,但是抽样出来的大部分都是简单易区分的样本对。如果大量训练的样本对都是简单的样本对,那么这是不利于网络学习到更好的表征。大量论文发现用更难的样本去训练网络能够提高网络的泛化能力,而采样难样本对的方法很多。
基于训练批量(Batch)的在线难样本采样方法——TriHard Loss。
边界挖掘损失(Margin sample mining loss, MSML)
**边界样本挖掘损失(MSML)是一种引入难样本采样思想的度量学习方法。**三元组损失只考虑了正负样本对之间的相对距离。**为了引入正负样本对之间的绝对距离,四元组损失加入一张负样本组成了四元组。**四元组损失也定义为:
Video based
基于视频序列的ReID
基于视频序列的方法最主要的不同点就是这类方法不仅考虑了图像的内容信息,还考虑了帧与帧之间的运动信息等。
基于单帧图像的方法主要思想是利用CNN来提取图像的空间特征,而基于视频序列的方法主要思想是利用CNN 来提取空间特征的同时利用递归循环网络(Recurrent neural networks, RNN)来提取时序特征。
上图是非常典型的思路,网络输入为图像序列。每张图像都经过一个共享的CNN提取出图像空间内容特征,之后这些特征向量被输入到一个RNN网络去提取最终的特征。
最终的特征融合了单帧图像的内容特征和帧与帧之间的运动特征。
而这个特征用于代替前面单帧方法的图像特征来训练网络。
论文: AMOC: Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang, Shuicheng Yan, Jiashi Feng. Video based person re-identification with accumulative motion context[J]. arXiv preprint arXiv:1701.00193,2017.
AMOC的核心思想在于网络除了要提取序列图像的特征,还要提取运动光流的运动特征,其网络结构图如下图所示。AMOC拥有空间信息网络(Spatial network, Spat Nets)和运动信息网络两个子网络。
图像序列的每一帧图像都被输入到Spat Nets来提取图像的全局内容特征。
而相邻的两帧将会送到Moti Nets来提取光流图特征。
之后空间特征和光流特征融合后输入到一个RNN来提取时序特征。
通过AMOC网络,每个图像序列都能被提取出一个融合了内容信息、运动信息的特征。
网络采用了分类损失和对比损失来训练模型。
融合了运动信息的序列图像特征能够提高行人重识别的准确度。
其他相关论文
[17] Taiqing Wang, Shaogang Gong, Xiatian Zhu, Shengjin Wang. Person re-identification by discriminative selection in video ranking[J]. IEEE transactions on pattern analysis and machine intelligence, 2016.38(12):2501–2514.
[18] Dongyu Zhang, Wenxi Wu, Hui Cheng, Ruimao Zhang, Zhenjiang Dong, Zhaoquan Cai. Image-to-video person re-identification with temporally memorized similarity learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017.
[19] Jinjie You, Ancong Wu, Xiang Li, Wei-Shi Zheng. Top-push video-based person reidentification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:1345–1353.
[20] Xiaolong Ma, Xiatian Zhu, Shaogang Gong, Xudong Xie, Jianming Hu, Kin-Man Lam, Yisheng Zhong. Person re-identification by unsupervised video matching[J]. Pattern Recognition, 2017. 65:197–210.
[21] Niall McLaughlin, Jesus Martinez del Rincon, Paul Miller. Recurrent convolutional network for videobased person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1325–1334.
[22] Rui Zhao, Wanli Oyang, Xiaogang Wang. Person re-identification by saliency learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2017. 39(2):356–370.
[23] Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang, Shuicheng Yan, Jiashi Feng. Video based person re-identification with accumulative motion context[J]. arXiv preprint arXiv:1701.00193,2017.
[24] Song G, Leng B, Liu Y, et al. Region-based Quality Estimation Network for Large-scale Person Re-identification[J]. arXiv preprint arXiv:1711.08766, 2017.
Method
Spindle Net网络 关节点识别
论文: Haiyu Zhao, Maoqing Tian, Shuyang Sun, Jing Shao, Junjie Yan, Shuai Yi, Xiaogang Wang, Xiaoou Tang. Spindle net: Person re-identification with human body region guided feature decomposition and fusion[C]. CVPR, 2017.
对遮挡的情况启发 权重标记
论文: Song G, Leng B, Liu Y, et al. Region-based Quality Estimation Network for Large-scale Person Re-identification[J]. arXiv preprint arXiv:1711.08766, 2017.
如上图,文章认为在遮挡较严重的情况下,如果用一般的pooling会造成attention map变差,遮挡区域的特征会丢失很多。
而利用论文的方法每帧进行一个质量判断,就可以着重考虑那些比较完整的几帧,使得attention map比较完整。
而关键的实现就是利用一个pose estimation的网络,论文叫做landmark detector。
当landmark不完整的时候就证明存在遮挡,则图片质量就会变差。之后pose feature map和global feature map都同时输入到网络,让网络对每帧进行一个权重判断,**给高质量帧打上高权重,然后对feature map进行一个线性叠加。**思路比较简单但是还是比较让人信服的。
其他论文思考的参考思路
1、 ReID 全尺度, 局部特征思路 (来自OSNet)
首先,我们认为这些特征需要全尺度的,定义为变量同构和异构尺度的组合,每一个都由多个尺度的混合组成。从图1可以明显看出对全尺度特性的需求。为了匹配和区分人与冒名顶替者,与局部小区域(如鞋子、眼镜)和整体身体区域相对应的特征是很重要的。
例如,给定图1(a)(左)中的查询图像,查看全局范围的特性(例如,年轻人,白t恤+灰色短裤组合)将搜索范围缩小到真正的匹配(中)和冒名顶替者(右)。现在,局部尺度(local-scale)特征开始发挥作用——鞋子区域暴露了右边的人是骗子的事实(运动鞋vs.凉鞋)。
然而,对于更具挑战性的情况,即使是变量同构尺度的特征也不够。需要更复杂和更丰富的跨多个尺度的特性。例如,要消除图1(b)(右)中的冒名顶替者,需要在前面具有特定标识的白色T恤上添加一些特征。
请注意,这个标志本身并没有什么特别之处——如果没有白色T恤作为背景,它可能会与许多其他图案混淆。同样,白色T恤在夏天随处可见(如图1(a))。它是独特的组合,由跨越小(标志尺寸)和中(上身尺寸)尺度的异构特性捕获,这使得这些特性最有效。
2、 相似度度量 距离
待查询列表
马氏距离
MOT 因为欧氏距离忽略空间域分布的计算结果,所以增加里马氏距离作为运动信息的约束。
对多个特征求平均
这篇关于【论文筛选】ReID候选调研对象 2020-08-04 (ing)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!