【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking

本文主要是介绍【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Deeper and Wider Siamese Networks for Real-Time Visual Tracking 论文地址 代码

写在前面

又是一篇关于SiamRPN的改进,加深了网络宽度与深度,优化特征提取过程,效果很好。

Motivation

  • 深度的网络如ResNet在其他视觉任务上都有很好的表现,然而却不能移植到目标跟踪领域中;
  • 网络太深导致最后特征的感受野太大,更加关注语义信息而缺少定位能力;
  • 网络的padding操作会使得模型产生漂移;
  • 网络的步长影响了网络定位的准确度,特别是在小物体上。

Contribution

  • 他们系统分析了深度的网络影响跟踪的因素,并且提出了一个网络结构设计的guideline for Siamese tracker;
  • 他们提出了一个no-padding-residual 单元来设计一个更加深和宽的Siamese tracker,实验表明他们的这种做法提升了网络的精度。

Algorithm

1、Analysis

在这个部分,他们详细分析了深度网络影响tracker的因素如下:
1.1 没有padding的网络的表现最好;
1.2 随着网络的步长变大,网络的表现越差,这个表明Siamese网络更多使用的四中层的特征,这些特征更加有利于目标的定位;
1.3 输出feature的感受野最好是模板的60%-80%左右。
在这里插入图片描述

2.Guideline

根据以上的分析,他们对网络的优化提出了一系列的准则:

2.1 Siamese的tracker应该使用小的网络步长;
2.2 输出特征的感受野应该根据模板图片的比例设定;
2.3 网络的步长、感受野和输出特征尺寸应该是一起设计的;
2.4 对于全卷积的Siamese网络,最好的方法应该是去掉padding操作。

Deeper and Wider Siamese Networks

这个部分,他们设计了一个新的模块,用来消除由于网络太深产生的漂移。
在这里插入图片描述
如上图,a和b是原始的残差单元和下采样单元,(a’)是本文提出的方法,在加和操作之后加了一个crop操作,这个操作可以移除被zero-padding影响的特征,因为padding一般处于feature map的边缘,所以这些影响很容易通过crop操作消除。

(b’)是对下采样操作的优化,因为这个操作会将网络的特征图变小,所以为了稍微控制一下,就把第二层的步长变成1,最后还是加了一个crop来消除padding的影响,最后用maxpooling来下采样特征图(这个maxpooling不懂干嘛的,可能是人家模型压缩领域常用的把)。d是将网络加宽,使得网络可以使用更多的信息。

值得注意的是,网络因为crop操作所以会使得feature map变小,文章就直接通过加大输入图像和减少网络步长来做

3、网络结构

在这里插入图片描述
以上CIResNet-43就是这篇文章提出的网络结构,(一脸懵逼的我)。

Experiment

在各大benchmark上效果都有提升
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结

感觉从ECCV UPDT出来后,商汤就开始研究ResNet了,怎么大家都没想到呢,果然人家就是有克服困难的意识和勇气啊。

优点
  • 分析了更加深的网络为什么不能在Siamese tracker上有用,并且给出了解决方案,是一个比较通用的方法;
缺点

找不出缺点(哭),要说缺点,就是Inception和ResNet我不熟,所以觉得人家在网络结构那边写的模棱两可吧。

这篇关于【SiamDW(CVPR2019)oral】论文阅读Deeper and Wider Siamese Networks for Real-Time Visual Tracking的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/527228

相关文章

Visual Studio中,MSBUild版本问题

假如项目规定了MSBUild版本,那么在安装完Visual Studio后,假如带的MSBUild版本与项目要求的版本不符合要求,那么可以把需要的MSBUild添加到系统中,然后即可使用。步骤如下:            假如项目需要使用V12的MSBUild,而安装的Visual Studio带的MSBUild版本为V14。 ①到MSDN下载V12 MSBUild包,把V12包解压到目录(

nginx 504 Gateway Time-out

环境:PHP7.1,NGINX,Mysql 问题描述: 本地写了一个需要执行比较长时间的脚本,放到了php-fpm里面跑。用一个链接调用起这个脚本。发现第一次调用的时候,需要等比较久的时间,但是如果在执行期间再次请求这个链接。第二个请求的链接会返回504。甚至,直接在脚本最开始的地方中断都还是报 504. 但是如果请求其他链接,可以正常请求。 nginx 返回码、、 504 Gateway

ssh在本地虚拟机中的应用——解决虚拟机中编写和阅读代码不方便问题的一个小技巧

虚拟机中编程小技巧分享——ssh的使用 事情的起因是这样的:前几天一位工程师过来我这边,他看到我在主机和虚拟机运行了两个vscode环境,不经意间提了句:“这么艰苦的环境写代码啊”。 后来我一想:确实。 我长时间以来都是直接在虚拟机里写的代码,但是毕竟是虚拟机嘛,有时候编辑器没那么流畅,在文件比较多的时候跳转很麻烦,容易卡住。因此,我当晚简单思考了一下,想到了一个可行的解决方法——即用ssh

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

芯片后端之 PT 使用 report_timing 产生报告如何阅读

今天,就PT常用的命令,做一个介绍,希望对大家以后的工作,起到帮助作用。 在PrimeTime中,使用report_timing -delay max命令生成此报告。switch -delay max表示定时报告用于设置(这是默认值)。 首先,我们整体看一下通过report_timing 运行之后,报告产生的整体样式。 pt_shell> report_timing -from start_

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。

【python】python基于akshare企业财务数据对比分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 系列文章目录 目录 系列文章目录一、设计要求二、设计思路三、可视化分析 一、设计要求 选取中铁和贵州茅