【盘点】CVPR 二十年,影响力最大的 10 篇论文!

2023-12-02 22:59

本文主要是介绍【盘点】CVPR 二十年,影响力最大的 10 篇论文!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨二玖

编辑丨极市平台

极市导读

 

超过半数的论文都于近十年发表,来看看是不是你心中的TOP10。 

今天,我们将对计算机视觉领域三大顶会之一CVPR在近二十年来中产生的优秀论文进行一个全面的盘点与总结。

CVPR是计算机视觉领域三大顶会中唯一一个年度学术会议。在快速更新迭代的计算机学科中,CVPR成为了计算机视觉领域的“顶级流量”。而在过去的这些年间,CVPR也有着许多的变化。在十多年前,CVPR不过1500人的参会规模,到了2019年参会人数已经超过了6500人,投稿数量也年年增长。

虽然CVPR每年都会评选出最佳论文,但我们今天将从另一个角度来评选CVPR这二十年来的TOP10。即以Web of Science上显示的论文的引用量作为论文影响力的参考,排列出近二十年来影响力最大的十篇论文。接下来我们将依次进行介绍。

TOP10

Rethinking the Inception Architecture for Computer Vision

CVPR 2016

作者:Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe,Jon Shlens,Zbigniew Wojna

机构:Google,伦敦大学

被引频次:4751

这篇论文又被称为Inception-v3,是GoogLeNet(Inception-v1)的延伸。GoogLeNet首次出现于2014年ILSVRC 比赛,并在当年的比赛中获得了冠军。Inception-v1的参数量远小于同期VGGNet,而性能却与之基本持平。相较于Inception-v1,Inception-v3做出的主要改进则是将卷积进行非对称拆分,以显著降低参数量,同时使得空间特征更为丰富。

TOP9

Densely Connected Convolutional Networks

CVPR 2017

作者:Gao Huang,Zhuang Liu,Laurens van der Maaten,Kilian Q. Weinberger

机构:康奈尔大学,清华大学,Facebook AI Research

被引频次:5181

DenseNet也是CVPR2017的最佳论文之一。在当时的神经网络模型都遇到一个问题:随着网路层数的加深,训练过程中的前传信号和梯度信号在经过很多层之后可能会逐渐消失。而DenseNet的核心思想解决了这一问题。它对前每一层都加一个单独的 shortcut,使得任意两层网络都可以直接“沟通”

而DenseNet的不足之处在于它的内存占用十分庞大。但瑕不掩瑜,DenseNet以其极具创新性的思路,不仅显著减轻了深层网络在训练过程中梯度消散而难以优化的问题,同时也取得了非常好的性能。

TOP8

You Only Look Once: Unified, Real-Time Object Detection

CVPR 2016

作者:Joseph Redmon,Santosh Divvala,Ross Girshick,Ali Farhadiq

机构:华盛顿大学,Allen Institute for AI,Facebook AI Research

被引频次:5295

这一篇论文就是在目标检测领域大名鼎鼎的YOLO。其最新的版本已经更新到了YOLOv5,且每一代的发布都能在行业内卷齐新的热潮。

用YOLO的英文直译解释这一方法,就是只需要浏览一次就能识别出图中的物体的类别和位置。展开来说,YOLO的核心思想就是将目标检测转化为回归问题求解,并基于一个单独的端到端网络,完成从原始图像的输入到物体位置和类别的输出。这使得网络结构简单,且极大提升了检测速度。由于网络没有分支,所以训练也只需要一次即可完成。之后的很多检测算法都借鉴了这一思路。

TOP7

Rich feature hierarchies for accurate object detection and semantic segmentation

CVPR 2014

作者:Ross Girshick,Jeff Donahue,Trevor Darrell,Jitendra Malik

机构:加利福尼亚大学伯克利分校

被引频次:6876

这篇文章的排名在YOLO之前,既合理又巧妙。因为在YOLO之前,目标检测领域可以说是RCNN的世界。RCNN是将CNN引入目标检测的开山之作,它改变了目标检测领域的主要研究思路。紧随其后的系列文章,如Fast RCNN和Faster RCNN等,都代表了该领域当时的最高水准。

在RCNN前经典的目标检测算法是使用滑动窗法依次判断所有可能的区域,而RCNN则采用Selective Search方法预先提取一系列较可能是物体的候选区域,之后仅在这些候选区域上提取特征,这使得检测的速度大大提升。

TOP6

Rapid object detection using a boosted cascade of simple features

CVPR 2001

作者:Paul Viola,Michael Jones

机构:三菱电气实验室 ,康柏剑桥研究实验室

被引频次:7033

这篇论文是本次盘点中最先发表的一篇,比其他九篇文章都早了十年左右,它在传统人脸检测中具有里程碑意义,因而本文提出的思想聚焦于传统的目标检测。

这篇论文主要解决了三个问题:一是减少了计算特征的时间,二是构建了简单又很有效的单分支决策树分类器,最后是从简单到复杂把多个分类器级联,对可能包含人脸的区域进行重点检测,从而显著提升了检测速度。

TOP5

Going Deeper with Convolutions

CVPR 2015

作者:Christian Szegedy,Dragomir Anguelov, Dumitru Erhan,Vincent Vanhoucke,Yangqing Jia,Pierre Sermanet,Wei Liu,Scott Reed,Andrew Rabinovich

机构:Google,北卡罗来纳大学,密歇根大学

发布时间:2015年

被引频次:7269

可能大家已经发现了亮点,这篇论文的系列工作在前面就出现过。这篇论文就是开辟Inception家族,并在CNN分类器发展史上留下浓墨重彩的一笔的GoogLeNet。

在 Inception 出现之前,大部分流行 CNN 是将卷积层不断堆叠,让网络越来越深来得到更好的性能。而GoogLeNet 最大的特点就是使用 Inception 模块,并设计一种具有优良局部拓扑结构的网络,对输入图像并行地执行多个卷积运算或池化操作,将所有输出结果拼接为一个非常深的特征图。通过这种方式,GoogLeNet取得了非常惊艳的效果。

TOP4

ImageNet: A Large-Scale Hierarchical Image Database

CVPR 2009

作者:Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,Kai Li,Li Fei-Fei

机构:普林斯顿大学

发布时间:2009年

被引频次:8222

ImageNet是AI女神李飞飞团队构建的计算机视觉领域非常著名的海量的带标注图像数据集。它在图像分类、目标分割和目标检测中都有着无法撼动的地位。ImageNet从 2007 年开始到 2009 年完成,有超过 1500 万张图片。

可以毫不夸张的说,ImageNet 是图像处理算法的试金石。另外,从 2010 年起,每年 ImageNet 官方会举办挑战赛。Hinton团队提出的AlexNet也是在2012年的ImageNet挑战赛上一举成名,自此深度学习的热潮被点燃。

TOP3

Fully Convolutional Networks for Semantic Segmentation

CVPR 2015

作者:Jonathan Long,Evan Shelhamer,Trevor Darrell

发布时间:2015年

被引频次:9027

FCN在我们之前盘点的图像分割TOP10中就出现过,并高居第一位。作为语义分割的开山之作,无论是图像分割TOP1,还是CVPRTOP3,FCN都是当之无愧的。FCN所提出的全卷积网络的概念,开创了用FCN做实例和像素级别理解系列方法的先河。后续非常多的方法都受到了FCN的思路启发。FCN的提出为目标识别、检测与分割也都做出了巨大的贡献。

TOP2

Histograms of oriented gradients for human detection

CVPR 2005

作者:Navneet Dalal,Bill Triggs

被引频次:13389

这篇论文所提出的方法简称HOG,是一种是非常经典的图像特征提取方法,在行人识别领域被应用得尤为多。虽然文章已经发表了十五年,但仍然常常被人们用于最新工作的思路参考。HOG将图像分成小的连通区域,将它称为细胞单元,然后采集细胞单元中各像素点的梯度的或边缘的方向直方图,把这些直方图组合起来就可以构成特征描述器。

TOP1

Deep Residual Learning for Image Recognition

CVPR2016

作者:Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun

被引频次:32065

这篇论文作为第一名,的确是当之无愧。作为CVPR2016的最佳论文,它所提出的ResNet不仅在计算机视觉领域,而是在深度学习领域中都带来了颠覆式影响。

在当年,ResNet横扫 ImageNet 2015和COCO 榜单。也是从ResNet开始,神经网络在视觉分类任务上的性能第一次超越了人类。它也让当时第二次获得CVPR Best Paper的何恺明正式踏上了大神之路

最初 ResNet 的设计是用来处理深层 CNN 结构中梯度消失和梯度爆炸的问题,它将输入从卷积层的每个块添加到输出,让每一层更容易学习恒等映射,并且还减少了梯度消失的问题。而如今,残差模块已经成为几乎所有 CNN 结构中的基本构造

最后,我们来进行一下简要地总结。虽然本次盘点的是20年内CVPRTOP10,但是有超过半数的论文都是在近十年发表的,由此可以窥见深度学习在近年来的飞跃式发展。因此我们可以期待在未来的计算机视觉领域,一定会有更多更强的工作,为我们的科研与生活带来更快更好的提升。

参考资料

[1] https://zhuanlan.zhihu.com/p/41691301
[2] https://www.zhihu.com/question/60109389/answer/203099761
[3] https://zhuanlan.zhihu.com/p/31427164
[4] https://zhuanlan.zhihu.com/p/23006190
[5] https://blog.csdn.net/weixin_37763809/article/details/88256828
[6] https://zhuanlan.zhihu.com/p/37505777
[7] https://zhuanlan.zhihu.com/p/77221549
[8] https://www.zhihu.com/question/433702668/answer/1617092684
[9] https://blog.csdn.net/zouxy09/article/details/7929348
[10] https://www.jiqizhixin.com/articles/2020-01-01

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

这篇关于【盘点】CVPR 二十年,影响力最大的 10 篇论文!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/447158

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

poj 3723 kruscal,反边取最大生成树。

题意: 需要征募女兵N人,男兵M人。 每征募一个人需要花费10000美元,但是如果已经招募的人中有一些关系亲密的人,那么可以少花一些钱。 给出若干的男女之间的1~9999之间的亲密关系度,征募某个人的费用是10000 - (已经征募的人中和自己的亲密度的最大值)。 要求通过适当的招募顺序使得征募所有人的费用最小。 解析: 先设想无向图,在征募某个人a时,如果使用了a和b之间的关系

poj 3258 二分最小值最大

题意: 有一些石头排成一条线,第一个和最后一个不能去掉。 其余的共可以去掉m块,要使去掉后石头间距的最小值最大。 解析: 二分石头,最小值最大。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <c

poj 2175 最小费用最大流TLE

题意: 一条街上有n个大楼,坐标为xi,yi,bi个人在里面工作。 然后防空洞的坐标为pj,qj,可以容纳cj个人。 从大楼i中的人到防空洞j去避难所需的时间为 abs(xi - pi) + (yi - qi) + 1。 现在设计了一个避难计划,指定从大楼i到防空洞j避难的人数 eij。 判断如果按照原计划进行,所有人避难所用的时间总和是不是最小的。 若是,输出“OPETIMAL",若

poj 2135 有流量限制的最小费用最大流

题意: 农场里有n块地,其中约翰的家在1号地,二n号地有个很大的仓库。 农场有M条道路(双向),道路i连接着ai号地和bi号地,长度为ci。 约翰希望按照从家里出发,经过若干块地后到达仓库,然后再返回家中的顺序带朋友参观。 如果要求往返不能经过同一条路两次,求参观路线总长度的最小值。 解析: 如果只考虑去或者回的情况,问题只不过是无向图中两点之间的最短路问题。 但是现在要去要回

poj 2594 二分图最大独立集

题意: 求一张图的最大独立集,这题不同的地方在于,间接相邻的点也可以有一条边,所以用floyd来把间接相邻的边也连起来。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <sta

poj 3422 有流量限制的最小费用流 反用求最大 + 拆点

题意: 给一个n*n(50 * 50) 的数字迷宫,从左上点开始走,走到右下点。 每次只能往右移一格,或者往下移一格。 每个格子,第一次到达时可以获得格子对应的数字作为奖励,再次到达则没有奖励。 问走k次这个迷宫,最大能获得多少奖励。 解析: 拆点,拿样例来说明: 3 2 1 2 3 0 2 1 1 4 2 3*3的数字迷宫,走两次最大能获得多少奖励。 将每个点拆成两个

poj 3692 二分图最大独立集

题意: 幼儿园里,有G个女生和B个男生。 他们中间有女生和女生认识,男生男生认识,也有男生和女生认识的。 现在要选出一些人,使得这里面的人都认识,问最多能选多少人。 解析: 反过来建边,将不认识的男生和女生相连,然后求一个二分图的最大独立集就行了。 下图很直观: 点击打开链接 原图: 现图: 、 代码: #pragma comment(

最大流、 最小费用最大流终极版模板

最大流  const int inf = 1000000000 ;const int maxn = 20000 , maxm = 500000 ;struct Edge{int v , f ,next ;Edge(){}Edge(int _v , int _f , int _next):v(_v) ,f(_f),next(_next){}};int sourse , mee

二分最大匹配总结

HDU 2444  黑白染色 ,二分图判定 const int maxn = 208 ;vector<int> g[maxn] ;int n ;bool vis[maxn] ;int match[maxn] ;;int color[maxn] ;int setcolor(int u , int c){color[u] = c ;for(vector<int>::iter