论文笔记5：How to Discount Deep Reinforcement Learning:Towards New Dynamic Strategies

2023-11-01 12:59

文章标签 笔记 dynamic 论文 deep learning new reinforcement towards discount strategies

本文主要是介绍论文笔记5：How to Discount Deep Reinforcement Learning:Towards New Dynamic Strategies，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

参考资料：How to Discount Deep Reinforcement Learning: ...

为帮助跟我一样的小白，如果有大神看到错误，还请您指出，谢谢~

知乎同名：uuummmmiiii

创新点：相比于原始DQN不固定折扣因子（discount factor,γ），学习率（learning rate,α）

改进：变化discount factor 和 learning rate

改进原因：原始的DQN，即用NN代替Q表“存储”Q值，会出现系统不稳定的情况（应该是涉及到强化学习中状态之间有相关性，而NN中假设的输入都是独立同分布的问题）

带来益处：加快学习算法收敛，提高系统稳定性

Abstract

在强化学习中采用深度网络做函数估计已经取得了很大的进展（DQN），在DQN这个基准之上进行改进，本文阐述了discount factor在DQN的学习过程中起到的作用，当diacount factor在训练过程中逐渐增长到它的最终值，我们实力验证了这样可以减少learning step,即加快收敛。如果再伴随着learning rate的变化（减少），可以增加系统稳定性，表现在后面验证中，可以降低过拟合。我们的算法容易陷入局部最优，采用actor-critic算法增加exploration，防止陷入僵局和无法发现some parts of the state space.

Introduction

在强化学习中，深度神经网络可以代替Q表，解决状态空间大使得内存不足的问题，但缺点是用NN会产生不稳定（Q值震荡或者发散）。

本文的研究动机取决于：棉花糖实验（marshmallow），孩子们更倾向于等待更长时间换取更多的奖励。

本文结构：首先回顾DQN中的一些equation;探索discount factor的作用；再加入learning rate进行实验。

Instabilities of the online neural fitted Q-learning

discount factor作用与在机器学习中权衡bias-variance相似，discount factor 控制了策略复杂性的程度

Experiments

discount factor变化： $\gamma_{k+1}$ =1-0.98(1- $\gamma_{k}$ )

γ增加，有四个游戏算法学习更快

加入learning rate变化： $\alpha_{k+1}$ =0.98 $\alpha_{k}$ 发现五个游戏均减少了learning step

表示当discount factor保持逐渐增加到0.99后不变，逐渐减少learning rate，使得V值会降低，减少过拟合

这篇关于论文笔记5：How to Discount Deep Reinforcement Learning:Towards New Dynamic Strategies的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/323166。 23002807@qq.com

相关文章

Go语言中make和new的区别及说明

Go语言中make和new的区别及说明

《Go语言中make和new的区别及说明》：本文主要介绍Go语言中make和new的区别及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1 概述2 new 函数2.1 功能2.2 语法2.3 初始化案例3 make 函数3.1 功能3.2 语法3.3 初始化

阅读更多...

Python中的魔术方法__new__详解

Python中的魔术方法new详解

《Python中的魔术方法__new__详解》：本文主要介绍Python中的魔术方法__new__的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、核心意义与机制1.1 构造过程原理1.2 与 __init__ 对比二、核心功能解析2.1 核心能力2.2

阅读更多...

利用Python快速搭建Markdown笔记发布系统

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言：为什么要自建知识博客一、技术选型：极简主义开发栈二、系统架构设计三、核心代码实现（分步解析

阅读更多...

SpringBoot利用dynamic-datasource-spring-boot-starter解决多数据源问题

SpringBoot利用dynamic-datasource-spring-boot-starter解决多数据源问题

《SpringBoot利用dynamic-datasource-spring-boot-starter解决多数据源问题》dynamic-datasource-spring-boot-starter是一... 目录概要整体架构构想操作步骤创建数据源切换数据源后续问题小结概要自己闲暇时间想实现一个多租户平台，

阅读更多...

Python中__new__()方法适应及注意事项详解

Python中new()方法适应及注意事项详解

《Python中__new__()方法适应及注意事项详解》：本文主要介绍Python中__new__()方法适应及注意事项的相关资料,new()方法是Python中的一个特殊构造方法,用于在创建对... 目录前言基本用法返回值单例模式自定义对象创建注意事项总结前言new() 方法在 python 中是一个

阅读更多...

vue解决子组件样式覆盖问题scoped deep

vue解决子组件样式覆盖问题scoped deep

《vue解决子组件样式覆盖问题scopeddeep》文章主要介绍了在Vue项目中处理全局样式和局部样式的方法,包括使用scoped属性和深度选择器（/deep/）来覆盖子组件的样式,作者建议所有组件... 目录前言scoped分析deep分析使用总结所有组件必须加scoped父组件覆盖子组件使用deep前言

阅读更多...

Golan中 new() 、 make() 和简短声明符的区别和使用

Golan中 new() 、 make() 和简短声明符的区别和使用

《Golan中new()、make()和简短声明符的区别和使用》Go语言中的new()、make()和简短声明符的区别和使用,new()用于分配内存并返回指针,make()用于初始化切片、映射... 详细介绍golang的new() 、 make() 和简短声明符的区别和使用。文章目录 `new()`

阅读更多...

C# dynamic类型使用详解

C# dynamic类型使用详解

《C#dynamic类型使用详解》C#中的dynamic类型允许在运行时确定对象的类型和成员,跳过编译时类型检查,适用于处理未知类型的对象或与动态语言互操作,dynamic支持动态成员解析、添加和删... 目录简介dynamic 的定义dynamic 的使用动态类型赋值访问成员动态方法调用dynamic 的

阅读更多...

AI hospital 论文Idea

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境，人类医生（即医学学习者）可以在其中与患者代理进行医学

阅读更多...

【学习笔记】陈强-机器学习-Python-Ch15 人工神经网络（1）sklearn

【学习笔记】陈强-机器学习-Python-Ch15 人工神经网络（1）sklearn

系列文章目录监督学习：参数方法【学习笔记】陈强-机器学习-Python-Ch4 线性回归【学习笔记】陈强-机器学习-Python-Ch5 逻辑回归【课后题练习】陈强-机器学习-Python-Ch5 逻辑回归（SAheart.csv）【学习笔记】陈强-机器学习-Python-Ch6 多项逻辑回归【学习笔记及课后题练习】陈强-机器学习-Python-Ch7 判别分析【学

阅读更多...