DQN+Active Learning

2024-02-23 18:38

文章标签 active learning dqn

本文主要是介绍DQN+Active Learning，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

关于MarkDown公式详细编辑可以参考博客

Initialize replay memory $M$ to capacity $N$
Initialize action-value function $Q$ with random weights
for episode = $1, 2,...,N$ do
     $D_l$ ← model and shuffle $D$
     $\phi$ ← Random
    for $i = 1$ , $|D|$ do
        Construct the state $si$ using $x_i$
        With probability $\epsilon$ select a random action $a_i$
        Otherwise select $a_i = arg$ $maxQ^\pi(s_i,a;\theta)$
        if $a_i$ = 1 then
            Obtain the annotation $y_i$
             $D_l$ ← $D_l + (x_i,y_i)$
            Updata model $\phi$ based on $D_l$
        end if
        Receive a reward $r_i$ from test data
         if $|D_l|$ = $B$ then
            Store transition $(s_i,s_i,r_i,Terminate)$ in $M$
            Break
        end if
        Construct the new state $s_{i+1}$
        Store transition $(s_i,s_i,r_i,s_{i+1})$ in $M$
        Sample random minibatch of transitionsfrom $M$ , and perform gradient descent step on $L(θ)$
        Update policy with $\theta$
    end for
end for

这篇关于DQN+Active Learning的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/739563。 23002807@qq.com

相关文章

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界这个世界，小明只能控制自己的加速度，并且只能对加速度进行如下三种操作：增加1、减少1、或者不变。所以行动空间为： { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1=−1,u2=0,u3=1}

阅读更多...

简单的Q-learning|小明的一维世界(2)

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子，从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入，GO！一维的速度世界这个世界，小明只能控制自己的速度，并且只能对速度进行如下三种操作：增加1、减

阅读更多...

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

Learning Memory-guided Normality for Anomaly Detection——学习记忆引导的常态异常检测

又是一篇在自编码器框架中研究使用记忆模块的论文，可以看做19年的iccv的论文的衍生，在我的博客中对19年iccv这篇论文也做了简单介绍。韩国人写的，应该是吧，这名字听起来就像。摘要abstract 我们解决异常检测的问题，即检测视频序列中的异常事件。基于卷积神经网络的异常检测方法通常利用代理任务(如重建输入视频帧)来学习描述正常情况的模型，而在训练时看不到异常样本，并在测试时使用重建误

阅读更多...

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

Learning Temporal Regularity in Video Sequences CVPR2016 无监督视频异常事件检测早期工作摘要由于对“有意义”的定义不明确以及场景混乱，因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型（称为规律性）来解决此问题。体来说，我们提出了两种基于自动编码器的方法，以

阅读更多...

COD论文笔记 Adaptive Guidance Learning for Camouflaged Object Detection

COD论文笔记 Adaptive Guidance Learning for Camouflaged Object Detection

论文的主要动机、现有方法的不足、拟解决的问题、主要贡献和创新点如下：动机：论文的核心动机是解决伪装目标检测（COD）中的挑战性任务。伪装目标检测旨在识别和分割那些在视觉上与周围环境高度相似的目标，这对于计算机视觉来说是非常困难的任务。尽管深度学习方法在该领域取得了一定进展，但现有方法仍面临有效分离目标和背景的难题，尤其是在伪装目标与背景特征高度相似的情况下。现有方法的不足之处：过于

阅读更多...

One-Shot Imitation Learning

One-Shot Imitation Learning

发表时间：NIPS2017 论文链接：https://readpaper.com/pdf-annotate/note?pdfId=4557560538297540609&noteId=2424799047081637376 作者单位：Berkeley AI Research Lab, Work done while at OpenAI Yan Duan†§ , Marcin Andrychow

阅读更多...

Introduction to Deep Learning with PyTorch

Introduction to Deep Learning with PyTorch

1、Introduction to PyTorch, a Deep Learning Library 1.1、Importing PyTorch and related packages import torch# supports:## image data with torchvision## audio data with torchaudio## text data with t

阅读更多...

《Learning To Count Everything》CVPR2021

《Learning To Count Everything》CVPR2021

摘要论文提出了一种新的方法来解决视觉计数问题，即在给定类别中仅有少量标注实例的情况下，对任何类别的对象进行计数。将计数问题视为一个少样本回归任务，并提出了一种新颖的方法，该方法通过查询图像和查询图像中的少量示例对象来预测图像中所有感兴趣对象的存在密度图。此外，还提出了一种新颖的适应策略，使网络能够在测试时仅使用新类别中的少量示例对象来适应任何新的视觉类别。为了支持这一任务，作者还引入了一个包含

阅读更多...

One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

发表时间：5 Jun 2024 论文链接：https://readpaper.com/pdf-annotate/note?pdfId=2408639872513958656&noteId=2408640378699078912 作者单位：Rutgers University Motivation：学习一个通用的policy，可以执行一组不同的操作任务，是机器人技术中一个有前途的新方向。然而，

阅读更多...

MaPLe(论文解读): Multi-modal Prompt Learning

MaPLe(论文解读): Multi-modal Prompt Learning

Comment: Accepted at CVPR2023 摘要预训练的视觉语言模型（VL-PTMs）（比如CLIP）在下游任务中已经表现出不错的泛化能力。但是它们对输入文本提示模板的选择很敏感，需要仔细选择提示模板才能表现良好。受到NLP领域的启发，最近的CLIP的自适应性方法开始学习提示作为文本输入，来微调CLIP以适应下游任务。本文能注意到，在CLIP的单个分支（语言或图像分支）中

阅读更多...