19-Self-supervised-Visual-Feature-Learning-with-Deep-Neural-Networks-A-Survey

2024-05-05 01:08

本文主要是介绍19-Self-supervised-Visual-Feature-Learning-with-Deep-Neural-Networks-A-Survey,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

who

  • Longlong Jing and Yingli Tian ∗ , Fellow, IEEE
  • 2019-

what

  • 为了避免收集和注释大规模数据集的大量成本,作为无监督学习方法的子集,提出了自我监督学习方法,以从大规模未标记数据中学习一般图像和视频特征,而无需使用任何人工标注的标签。

一些术语

1. Pseudo label:
  • 伪标签是基于pretext tasks的数据属性自动生成的标签。
2. Pretext Task
  • Pretext tasks 是网络要解决的预先设计的任务,通过学习Pretext tasks 的目标函数来学习视觉特征。
3. Downstream Task
  • 用于评估自我监督学习所学习的特征的质量。
  • 需要人工标注的标签来解决Downstream Task。
  • 在某些应用程序中,Downstream Task可以与Pretext tasks 一样不使用任何人工注释标签。
4. Self-supervised Learning
  • 无监督学习方法的一个子集。
  • 学习方法,其中使用自动生成的标签明确训练ConvNets;

本综述仅关注视觉特征的自我监督学习方法

where

动机

1. 经过预先训练的模型,并针对其他任务进行了调整,主要有两个原因
  1. 从大规模不同数据集中学习的参数提供了一个很好的起点,因此,对其他任务的网络训练可以更快地收敛;
  2. 在大规模数据集上训练的网络已经学习了层次结构特征,这有助于减少其他任务训练期间的过拟合问题,特别是当其他任务的数据集很小或者训练标签很少时。
2. 要从未标记的数据中学习视觉特征
  • 为了避免耗时且昂贵的数据标注;
  • 一种流行的解决方案是提出网络要解决的各种pretext tasks,同时通过学习pretext tasks的目标函数来训练网络,并通过该过程学习特征。
3. pretext tasks共享两个共同属性
  1. ConvNets需要捕获图像或视频的视觉特征来解决pretext tasks,
  2. 可以基于图像或视频的属性自动生成用于pretext tasks的伪标签。

整体思路框架

image-20190505130546656

创新

  1. 据我们所知,这是第一个关于深度ConvNets的自我监督视觉特征学习的全面调查,这将有助于该领域的研究人员。
  2. 深入审查最近开发的自我监督学习方法和数据集。
  3. 提供了定量性能分析和现有方法的比较。

不同学习方法的函数

1. 监督学习函数

image-20190505130546656

2. 半监督学习函数

这篇关于19-Self-supervised-Visual-Feature-Learning-with-Deep-Neural-Networks-A-Survey的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/960495

相关文章

vue解决子组件样式覆盖问题scoped deep

《vue解决子组件样式覆盖问题scopeddeep》文章主要介绍了在Vue项目中处理全局样式和局部样式的方法,包括使用scoped属性和深度选择器(/deep/)来覆盖子组件的样式,作者建议所有组件... 目录前言scoped分析deep分析使用总结所有组件必须加scoped父组件覆盖子组件使用deep前言

详解Spring Boot接收参数的19种方式

《详解SpringBoot接收参数的19种方式》SpringBoot提供了多种注解来接收不同类型的参数,本文给大家介绍SpringBoot接收参数的19种方式,感兴趣的朋友跟随小编一起看看吧... 目录SpringBoot接受参数相关@PathVariable注解@RequestHeader注解@Reque

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

react笔记 8-19 事件对象、获取dom元素、双向绑定

1、事件对象event 通过事件的event对象获取它的dom元素 run=(event)=>{event.target.style="background:yellowgreen" //event的父级为他本身event.target.getAttribute("aid") //这样便获取到了它的自定义属性aid}render() {return (<div><h2>{

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

【Visual Studio 报错】未加载 wntdll.pdb(一种可行的解决办法)

调试程序时,会出现下面这个报错 分析原因: 出现未加载 wntdll.pdb 报错大概率是你的指针使用错误 ,比如使用野指针、越界访问、或者堆区空间释放方式错误等。 这里以 堆区空间释放方式错误 为例子 1、堆区开辟的数组空间使用 delete 释放 // 堆区开辟的数组空间使用 delete 释放int* p = new int[10];delete p; 正