本文主要是介绍【RL】(task3)A2C、A3C算法、JoyRL,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
note
文章目录
- note
- 一、A2C算法
- 二、A3C算法
- 时间安排
- Reference
一、A2C算法
在强化学习中,有一个智能体(agent)在某种环境中采取行动,根据其行动的效果获得奖励。目标是学习一种策略,即在给定的环境状态下选择最佳行动,以最大化长期累积的奖励。
A2C(Advantage Actor-Critic)
- Actor-Critic 框架:A2C 基于 Actor-Critic 框架。在这个框架中,有两个主要部分:Actor 和 Critic。Actor 负责选择行动,Critic 评估所选行动的好坏。简单来说,Actor 是决策者,而 Critic 是评价者。
- Advantage 概念:在 A2C 中,“Advantage”指的是某个行动相对于平均行动的预期效果好多少。这有助于理解某些行动为什么比其他行动更好。
- 工作原理:A2C 通过训练 Actor 和 Critic 来改善决策。Actor 根据 Critic 的评价来调整其策略,而 Critic 则根据实际结果来调整其对行动好坏的评估。
- 通俗解释:可以把 A2C 想象成一个足球队,其中 Actor 是球员,Critic 是教练。球员(Actor)根据场上情况做出决策,而教练(Critic)则评估这些决策并指导球员如何改进。
import torch
import torch.optim as optim
import torch.nn as nn
import torch.nn.functional as F
from torch.distributions import Categorical
import numpy as np
from multiprocessing import Process, Pipe
import argparse
import gym# 建立Actor和Critic网络
class ActorCritic(nn.Module):''' A2C网络模型,包含一个Actor和Critic'''def __init__(self, input_dim, output_dim, hidden_dim):super(ActorCritic, self).__init__()self.critic = nn.Sequential(nn.Linear(input_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, 1))self.actor = nn.Sequential(nn.Linear(input_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, output_dim),nn.Softmax(dim=1),)def forward(self, x):value = self.critic(x)probs = self.actor(x)dist = Categorical(probs)return dist, valueclass A2C:''' A2C算法'''def __init__(self,n_states,n_actions,cfg) -> None:self.gamma = cfg.gammaself.device = cfg.deviceself.model = ActorCritic(n_states, n_actions, cfg.hidden_size).to(self.device)self.optimizer = optim.Adam(self.model.parameters())def compute_returns(self,next_value, rewards, masks):R = next_valuereturns = []for step in reversed(range(len(rewards))):R = rewards[step] + self.gamma * R * masks[step]returns.insert(0, R)return returns
二、A3C算法
A3C(Asynchronous Advantage Actor-Critic)
- 异步框架:A3C 在 A2C 的基础上增加了“异步”这一概念。这意味着多个智能体(即多个 Actor-Critic 对)同时在不同的环境副本中学习。
- 并行学习:在 A3C 中,每个智能体独立地探索环境并学习。它们的学习结果会不时地汇总更新到一个全局模型中。
- 效率和稳定性:由于是并行处理,A3C 可以更高效地学习,并且由于多个智能体探索不同策略,算法的稳定性和鲁棒性也得到提升。
- 通俗解释:A3C 就像是许多足球队同时在不同的球场上训练。每个队都有自己的球员(Actor)和教练(Critic),他们独立训练并不断向一个中央团队报告他们的进步。中央团队汇总这些信息,以帮助每个队伍更好地训练。
时间安排
任务 | 天数 | 截止时间 | 注意事项 |
---|---|---|---|
Task01: 马尔可夫过程、DQN算法 | 3天 | 1月15周一-17日周三 | |
Task02: 策略梯度算法 | 3天 | 1月18日周四-20周六 | |
Task03: A2C、A3C算法、JoyRL开源文档(关注多进程) | 3天 | 1月21日周日-23日周二 | |
Task04: DDPG、TD3算法 | 3天 | 1月24日周三-26日周五 | |
Task05: PPO算法,JoyRL代码实践(选择任一算法任一环境,研究算法不同参数给实验结果带来的影响,也可以用JoyRL上没有跑过的环境尝试) | 6天 | 1月27日周六-2月1号周四 |
Reference
[1] 开源内容https://linklearner.com/learn/detail/91
[2] https://github.com/datawhalechina/joyrl-book
这篇关于【RL】(task3)A2C、A3C算法、JoyRL的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!