【论文快读】R-CNN(2013)

2024-03-26 16:48
文章标签 论文 cnn 2013 快读

本文主要是介绍【论文快读】R-CNN(2013),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

标题:Rich feature hierarchies for accurate object detection and semantic segmentation
链接:https://arxiv.org/abs/1311.2524
作者:Ross Girshick等
摘要:
这里写图片描述
传统的目标检测方法是通过集成系统把低级别的图像特征和高级别的文本相组合。CNN在经典的classification task上做的已经足够好了,但是在object detection上的工作依然是个空白。本文提出,CNN的表现依然可以优于传统的HOG等方法。
本文提出的R-CNN方法基于两点:1大容量的CNN可以用来自底向上地定位和分割区域。2当标签数据很稀疏时,有监督预训练+fine tuning可以达到很好的效果。
由classification到localization增加了检测边缘的部分,这可以视作一个回归问题,但精度很低。借助CNN构造滑窗detector(通常为2个卷积池化层)可以大大提高精度,作者经过各种优化尝试,最终将CNN定位问题作为“recognition using regions”来处理:
首先从input图片取出2000多个不同大小的框,每个框经过affine变换成相同的size后过一遍CNN,得到2000多个固定长度的特征,利用线性svm做2000多个分类。
对于scarce label的问题,首先在辅助数据集中做有监督预训练,然后在小数据集上做fine tunning,原因是图像特征的提取在卷积池化层中完成,但这些特征并不会因为数据集的变换而产生根本性的区别。这样做的结果比传统的HOG方法精确的多。

目标检测

网络结构:
1 选框:今年提出了很多方法,这里采用了selective search。
2 特征提取:5个卷积层和2个全连接层,框经过warp成227*227的rgb,输出是4096维向量。
3 分类:对svm的打分结果进行贪心非极大抑制处理。

训练:
1 在一个完全无关的数据集上对CNN进行预训练,得到一个性能优异的CNN。
2 对1中得到的CNN采用SGD在前述框中进行训练,输出由1000个类调整为21个类,学习率0.001,mini-batch size 128(32个正类+96个负类)。

语义分割

作者采取了三种特征进行语义分割:
1。前述的直接拉伸框
2。仅仅保留前景mask
3。1和2的组合
经过实验发现策略3可以获得更高的精度,但是我觉得和三种方法o2p差别不大,其实并没有做到惊异,或者说能和o2p做到同等水平就已经很优秀了?

这篇关于【论文快读】R-CNN(2013)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/849193

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

rtmp流媒体编程相关整理2013(crtmpserver,rtmpdump,x264,faac)

转自:http://blog.163.com/zhujiatc@126/blog/static/1834638201392335213119/ 相关资料在线版(不定时更新,其实也不会很多,也许一两个月也不会改) http://www.zhujiatc.esy.es/crtmpserver/index.htm 去年在这进行rtmp相关整理,其实内容早有了,只是整理一下看着方

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

深度学习实战:如何利用CNN实现人脸识别考勤系统

1. 何为CNN及其在人脸识别中的应用 卷积神经网络(CNN)是深度学习中的核心技术之一,擅长处理图像数据。CNN通过卷积层提取图像的局部特征,在人脸识别领域尤其适用。CNN的多个层次可以逐步提取面部的特征,最终实现精确的身份识别。对于考勤系统而言,CNN可以自动从摄像头捕捉的视频流中检测并识别出员工的面部。 我们在该项目中采用了 RetinaFace 模型,它基于CNN的结构实现高效、精准的

2024 年高教社杯全国大学生数学建模竞赛 C 题 农作物的种植策略 参考论文 无水印

持续更新中,2024年数学建模比赛思路代码论文都会发布到专栏内,只需订阅一次!  完整论文+代码+数据结果链接在文末!  订阅后可查看参考论文文件 第一问 1.1 问题重述 这个问题围绕的是华北山区的某乡村,在有限的耕地条件下,如何制定最优的农作物种植策略。乡村有 34 块露天耕地和 20 个大棚,种植条件包括粮食作物、蔬菜、水稻和食用菌。除了要考虑地块的面积、种植季节等,还要确保