Policy-Based Reinforcement Learning(1)

2024-06-11 07:28

本文主要是介绍Policy-Based Reinforcement Learning(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

之前提到过Discount Return:

U_t = R_t + \gamma R_{t+1} + \gamma ^2R_{t+2} + \gamma ^3 R_{t+1} + ...

Action-value Function :

Q_ \pi (s_t,a_t) = E[U_t|S_t = s_t, A_t = a_t]

State-value Function:

V_\pi(s_t) = E_A[Q_\pi (s_t,A)]  (这里将action A积分掉)这里如果策略函数\pi很好,V_\pi就会很大;反之策略函数不好,V_\pi就会很小。

对于离散类型:V_\pi (s_t) = E_A[Q_\pi (s_t,A)] = \sum_{a}^{}\pi (a|s_t) * Q_\pi (s_t, a)

用神经网络\pi (a|s_t;\theta )近似策略\pi (a|s_t)

V_\pi (s_t;\theta ) = \sum_{a}^{}\pi (a|s_t;\theta ) * Q_\pi (s_t, a)

即 学习参数\theta,使得J(\theta ) =E_S[V(S;\theta )]越来越大。这里使用梯度上升的方法,对于一个可观测状态s,更新\theta \leftarrow \theta + \beta \frac{\partial V(s;\theta )}{\partial \theta } 

这里\frac{\partial V(s;\theta )}{\partial \theta }称为策略梯度(Policy Gradient)

这篇关于Policy-Based Reinforcement Learning(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1050520

相关文章

Deep Learning复习笔记0

Key Concept: Embedding: learned dense, continuous, low-dimensional representations of object 【将难以表示的对象(如图片,文本等)用连续的低维度的方式表示】 RNN: Recurrent Neural Network -> for processing sequential data (time se

▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch5 蒙特卡洛方法【model-based ——> model-free】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 + 学堂在线 习题 2、 过 电子书 是否遗漏 【下载:本章 PDF GitHub 页面链接 】 【第二轮 才整理的,忘光了。。。又看了一遍视频】 3、 过 MOOC 习题 看 PDF 迷迷糊糊, 恍恍惚惚。 学堂在线 课程页面链接 中国大学MOOC 课程页面链接 B 站 视频链接 PPT和书籍下载网址: 【Gi

GIM: Learning Generalizable Image Matcher From Internet Videos

【引用格式】:Shen X, Yin W, Müller M, et al. GIM: Learning Generalizable Image Matcher From Internet Videos[C]//The Twelfth International Conference on Learning Representations. 2023. 【网址】:https://arxiv.or

越复杂的CoT越有效吗?Complexity-Based Prompting for Multi-step Reasoning

Complexity-Based Prompting for Multi-step Reasoning 论文:https://openreview.net/pdf?id=yf1icZHC-l9 Github:https://github.com/FranxYao/chain-of-thought-hub 发表位置:ICLR 2023 Complexity-Based Prompting for

▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch4 值迭代 与 策略迭代 【动态规划 model-based】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 + 学堂在线 习题 2、过 电子书 补充 【下载: 本章 PDF 电子书 GitHub】 [又看了一遍视频。原来第一次跳过了好多内容。。。] 3、总体 MOOC 过一遍 习题 学堂在线 课程页面链接 中国大学MOOC 课程页面链接 B 站 视频链接 PPT和书籍下载网址: 【GitHub 链接】 总述:

MySQL8修改密码报错ERROR 1819 (HY000): Your password does not satisfy the current policy requirements

目录 一、问题描述二、解决方法1.查看密码策略2.修改密码策略为 LOW3.修改密码长度为 6 一、问题描述 MySQL8 修改密码报错:ERROR 1819 (HY000): Your password does not satisfy the current policy requirements 二、解决方法 1.查看密码策略 show variables li

5.How Fast Should You Be When Learning?(你应该用多快的速度学习? (一))

Normally when I talk about learing quickly, I’m using speed as a synonym for efficiency.Use more effective methods and you’ll learn more in less time.All else being equal, that means you’re learing fa

【Deep Learning】Meta-Learning:训练训练神经网络的神经网络

元学习:训练训练神经网络的神经网络 本文基于清华大学《深度学习》第12节《Beyond Supervised Learning》的内容撰写,既是课堂笔记,亦是作者的一些理解。 1 Meta-Learning 在经典监督学习中,给定训练数据 { ( x i , y i ) } i \{(x_i,y_i)\}_i {(xi​,yi​)}i​,我们需要训练一个神经网络 f f f使得 f (

【Deep Learning】Self-Supervised Learning:自监督学习

自监督学习 本文基于清华大学《深度学习》第12节《Beyond Supervised Learning》的内容撰写,既是课堂笔记,亦是作者的一些理解。 在深度学习领域,传统的监督学习(Supervised Learning)的形式是给你输入 x x x和标签 y y y,你需要训练一个基于参数 θ \theta θ的神经网络 f θ ( x ) f_\theta(x) fθ​(x)使其能

Representation Learning on Network 网络表示学习笔记

Embedding Nodes Encoder-decoder ViewEncoding Methods 1 Factorization based2 Random Walk based3 Deep Learning based 网络表示学习(Representation Learning on Network),一般说的就是向量化(Embedding)技术,简单来说,就是