【论文视频】MoCo 论文逐段精读. CVPR 2020 zui佳论文提名【论文精读】

2023-10-16 19:59

本文主要是介绍【论文视频】MoCo 论文逐段精读. CVPR 2020 zui佳论文提名【论文精读】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

文章目录

  • 1. 四个问题
  • 2. 视频正文
    • 什么是对比学习?
    • 论文内容
      • 1. 题目和作者
      • 2. 摘要
      • 3. 引言
      • 4. 结论
      • 5. 相关工作
      • 6. MoCo方法
      • 7. 实验
      • 8. 总结
  • 3. 参考资料

1. 四个问题

  1. 解决什么问题
    做无监督的表征学习

  2. 用什么方法解决
    本文提出了MoCo去做无监督的表征学习,虽然是基于对比学习的,但是本文是从另外一个角度来看对比学习,也就是说把对比学习看作是一个字典查询的任务。
    具体来说,就是做一个动态的字典,这个动态的字典由两个部分组成:

    • 第一个部分是一个队列,因为队列中的样本不需要做梯度回传,所以就可以往队列中放很多负样本,从而使得这个字典变得很大
    • 第二个部分是一个移动平均的编码器,使用这个移动平均的编码器的目的是想让字典中的特征尽量的保持一致。作者发现在训练的过程中,如果能有一个很大而且比较一致的字典,会对无监督的对比学习非常有好处
  3. 效果如何
    MoCo作为一个无监督的预训练模型,能够在7个下游任务(分割、检测等)上,而且比如说在VOC、COCO这些数据集上超越之前的有监督的预训练模型,有时候甚至是大幅度超越。
    最后作者总结说,这就意味着对于很多视觉任务来说,无监督和有监督的表征学习中间的鸿沟已经填上了。

  4. 还存在什么问题
    无监督对比学习学到的特征分布跟有监督学习学到的特征的分布是非常不同的 ,哪里不同,有多不同? 【等待学习中…】

2. 视频正文

什么是对比学习?

在这里插入图片描述
那不还是需要标签使 模型知道哪几张图片为一类吗?

那为什么 对比学习一般在视觉领域被认为是无监督的训练方式呢?

因为在视觉领域,大家巧妙地设计代理任务,从而人为定义一些规则,这些规则可以用来定义哪些图片是相似的,哪些图片是不相似的,从而可以提供一个监督信号去训练模型,这也就是所谓的自监督训练

讲一个最广泛的代理任务:instance discrimination

如何定义哪些图片是相似的,哪些图片是不相似的呢?
instance discrimination 是这么做的:只有从自己图片裁剪下来的才是正样本,属于同一类,其它都是负样本。
在这里插入图片描述
这样一个框架就是对比学习常见的实现方式了。看起来好像平平无奇,但对比学习就厉害的地方就是它的灵活性。只要你能找到一种方式定义什么是正样本,什么是负样本,这就够了,剩下的操作都是比较标准。

大开脑洞去制定很多正样本负样本的规则,

  • 比如在视频领域,同一视频的任意两帧都是正样本,而其它视频里所有帧都是负样本。
  • 在NLP领域,NLP, simCSE 把同样的句子扔给模型,但是做 2 次 forward,通过不同的 dropout 得到一个句子的 2 个特征;和其它所有句子的特征都是负样本。
  • CMC 论文:一个物体的不同视角 view(正面、背面;RGB 图像、深度图像)作为不同形式的正样本。

对比学习实在是太灵活了,比天比地比空气,什么都能比,只要你脑洞够大,哪个领域都能用。

扩展到多模态领域,也就造就了open AI 的 CLIP 模型

论文内容

在这里插入图片描述

1. 题目和作者

什么是动量Momentum
在这里插入图片描述

2. 摘要

本文提出了MoCo去做无监督的表征学习,虽然是基于对比学习的,但是本文是从另外一个角度来看对比学习,也就是说把对比学习看作是一个字典查询的任务

具体来说,就是做一个动态的字典,这个动态的字典由两个部分组成

  • 第一个部分是一个队列,因为队列中的样本不需要做梯度回传,所以就可以往队列中放很多负样本,从而使得这个字典变得很大
  • 第二个部分是一个移动平均的编码器,使用这个移动平均的编码器的目的是想让字典中的特征尽量的保持一致。作者发现在训练的过程中,如果能有一个很大而且比较一致的字典,会对无监督的对比学习非常有好处

这篇论文主要的亮点在于它的结果,所以剩下大篇幅的摘要留给了结果

更重要的是MoCo学习到的特征能够很好地迁移到下游的任务,这才是整篇文章的精髓

MoCo作为一个无监督的预训练模型,能够在7个下游任务(分割、检测等)上,而且比如说在VOC、COCO这些数据集上超越之前的有监督的预训练模型,有时候甚至是大幅度超越

最后作者总结说,这就意味着对于很多视觉任务来说,无监督和有监督的表征学习中间的鸿沟已经填上了

  • 之前虽然有一些无监督的工作能够在某个数据集或者是某个任务上能够比它对应的有监督预训练模型好一点,但是MoCo是第一个能够在这么多主流视觉任务上,全面地让无监督训练的模型比有监督训练的模型表现要好

3. 引言

信号空间:

  1. 自然语言:离散的信号空间,也就是说是用单词,词根词缀去表示的,从而可以很容易地吉建tokenized字典(tokenized :把某一个词对应某一个特征),一旦有了这个字典,可以把这个字典的key想象成类别,这不就是有监督学习的范式了吗?所以在NLP领域,无监督学习就很容易建模,也容易优化
  2. CV 原始信号是连续的、高维的,不像单词具有浓缩好的、简洁的语义信息,不适合构建 个字典。如果没有字典,无监督学习很难建模 。所以导致在视觉这边,无监督学习还远不如有监督学习。

构造动态字典:
第二段:别人怎么用对比学习的方法在 CV 的无监督学习里?dynamic dictionaries
近期结合 对比学习和 CV 的无监督学习效果不错,出发点motivation 不一样,但可以被归纳为 “动态字典法”
在这里插入图片描述
这个字典满足两个要求:1.大(高维的视觉信息抽样);2.一致性(keys用相同或者相似的编码器得到的,这样跟query去对比才尽可能一致,否则query可能找到一个key跟它使用相同的编码器,而不是真的含有相同语义信息的key,变相地引入一个shortcut ,这样模型学不好)
在这里插入图片描述

介绍完了研究动机,还有之前工作的局限性,还有想要达到的目标,那么很自然地作者提出他们的方法了。

贡献:

  1. queue(使这个字典大)
  2. momentum(动量能够让这个字典缓慢更新)

在这里插入图片描述
在这里插入图片描述
第五段:MoCo 的代理任务 pretext task? instance discrimination
MoCo只是建立中间模型的方式,只是为对比学习提供了一个动态字典。
选择什么代理任务去做自监督学习呢?instance discrimination(简单,效果好)
在这里插入图片描述
最后一段老套路:卖一下结果
迁移下游任务,跟有监督的训练打个平手甚至在某些领域大幅度领先,模型永无止境,有望取代有监督的预训练的模型
在这里插入图片描述

4. 结论

在这里插入图片描述
最后一句话点题总结:希望MoCo 能对其它那些使用对比学习的代理任务有帮助
==之所以强调对比学习,MoCo 设计的初衷:去构造一个大的字典,从而让正负样本能够更有效地去对比,提供一个稳定的自监督信号,最后去训练这个模型 ==

5. 相关工作

在这里插入图片描述

对比学习的目标函数,在一个特征空间里,衡量各个样本的相似性。要达到的目标:让相似物体的特征拉得尽量近,不相似的物体特征推开得尽量远。
在这里插入图片描述
在这里插入图片描述

代理任务 pretext tasks,脑洞大开
在这里插入图片描述
在这里插入图片描述

对比学习和代理任务
在这里插入图片描述
在这里插入图片描述

总结一下:
在这里插入图片描述

在这里插入图片描述

6. MoCo方法

参考文字参考1——MoCo 论文逐段精读【论文精读】

NCE(noise contrastive estimatation ) loss

Info NCE
在这里插入图片描述

已经有了代理任务提供的正负样本,也有了目标函数,接下来该考虑模型的输入输出了
在这里插入图片描述

(整个论文,每一段和每一段之间最好都有承上启下的段落,每当开始讲一个新的东西的时候最好先讲一下为什么需要它,一旦有了这个承上启下的段落,也就是因为所以的逻辑关系之后,论文读起来就会更加顺畅。否则论文上来每一段都是直接讲方法的话,很容易让人看得一头雾水,无论自己觉得写的有多清晰,读者可能从一开始就没明白为什么要这么做)

文章的第一个贡献:如何把一个字典看成队列

文章的第二个贡献:如何使用动量的思想去更新编码器

作者在引言中提到过,之前的那些对比学习方法都可以看作是字典查找,但是它们都或多或少受限于字典的大小和字典的一致性的问题,这里作者将之前的方法总结了一下,归纳成了两种架构

第一种就是比较直接的端到端学习的方式

  • 端到端学习的优点在于编码器是可以实时更新的,所以导致它字典里的那些key的一致性是非常高的,但是它的缺点在于因为它的字典大小(就是batch-size的大小),导致这个字典不能设置的过大,否则硬件内存吃不消

第2种:memory bank

  • 更关注字典的大小,而牺牲一些一致性

在这里插入图片描述
在这里插入图片描述

MoCo的伪代码,走一遍 前向过程
在这里插入图片描述
建议看一下官方代码,写得极其出色,非常简洁明了,基本同伪代码

在这里插入图片描述

7. 实验

参考文字参考1——MoCo 论文逐段精读【论文精读】

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

划重点:无监督学习最主要的目标就是学习一个可以迁移的特征

  • 用ImageNet做有监督的预训练,它最有用、最有影响力的时候就是在当在下游任务上做微调,可以用这个预训练模型做模型的初始化,从而当下游任务只有很少的标注数据的时候也能获得很好的效果
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

8. 总结

MoCo这篇论文以及它高效的实现,能让大多数人有机会用普通的GPU就能跑对比学习的实验,做研究

因为MoCo在各个视觉任务上取得了更好的性能,也激发了很多后续分析性的工作,去研究MoCo学出来的特征到底和有监督学出来的特征有什么不同,还能从别的什么方向去提高对比学习

3. 参考资料

MoCo 论文逐段精读【论文精读】

文字参考1——MoCo 论文逐段精读【论文精读】

文字参考2——MoCo 论文逐段精读【论文精读】

这篇关于【论文视频】MoCo 论文逐段精读. CVPR 2020 zui佳论文提名【论文精读】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/220463

相关文章

百度OCR识别结构结构化处理视频

https://edu.csdn.net/course/detail/10506

中国341城市生态系统服务价值数据集(2000-2020年)

生态系统服务反映了人类直接或者间接从自然生态系统中获得的各种惠益,对支撑和维持人类生存和福祉起着重要基础作用。目前针对全国城市尺度的生态系统服务价值的长期评估还相对较少。我们在Xie等(2017)的静态生态系统服务当量因子表基础上,选取净初级生产力,降水量,生物迁移阻力,土壤侵蚀度和道路密度五个变量,对生态系统供给服务、调节服务、支持服务和文化服务共4大类和11小类的当量因子进行了时空调整,计算了

RISC-V教学内容及短视频吸引因素

RISC-V 教学内容 在我的认知中,大多数人对RV仍然了解甚少,我想本实习岗位主要面向对 RV 不了解或了解很少的同学,帮助大家更好入门。 因此教学内容为: RISC-V 简要介绍;RISC-V 指令集知识简要讲解,指令集介绍,各个指令集的指令规则及指令运行演示,可以结合模拟器运行结果讲解更为直观;常见 RV 模拟器介绍,分别适用的场景。对于一些简单的 RV 模拟器可以展开讲解安装部署使用

YOLOv9摄像头或视频实时检测

1、下载yolov9的项目 地址:YOLOv9 2、使用下面代码进行检测 import torchimport cv2from models.experimental import attempt_loadfrom utils.general import non_max_suppression, scale_boxesfrom utils.plots import plot_o

google gemini1.5 flash视频图文理解能力初探(一)

市面能够对视频直接进行分析的大模型着实不多,而且很多支持多模态的大模型那效果着实也不好。 从这篇公众号不只是100万上下文,谷歌Gemini 1.5超强功能展示得知,Gemini 1.5可以一次性处理1小时的视频、11小时的音频或100,000行代码,并衍生出更多的数据分析玩法。能力覆盖: 跨模式理解和推理,当给出一部 44 分钟的巴斯特-基顿(Buster Keaton)无声电影时,该模型能准

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

警惕!推广文章与视频的兼职骗局大揭秘

在互联网时代,我们常常会看到各种各样的推广兼职信息,承诺可以轻松赚钱,特别是在推广文章和视频方面。然而,在这些看似诱人的机会背后,往往隐藏着一些骗局。本文将为大家揭示这些骗局,帮助大家避免上当受骗。 一、骗局特征 1. **高额回报承诺**:骗子常常以高额的回报作为诱饵,声称只要转发文章、分享视频,就能获得丰厚的佣金或收益。然而,这种不切实际的高额回报往往是骗局的开始。 2. **简单操作

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学