【RL】(task3)A2C、A3C算法、JoyRL

2024-01-22 15:04

文章标签 算法 rl task3 a3c joyrl a2c

本文主要是介绍【RL】(task3)A2C、A3C算法、JoyRL，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

note

文章目录

note
一、A2C算法
二、A3C算法
时间安排
Reference

一、A2C算法

在强化学习中，有一个智能体（agent）在某种环境中采取行动，根据其行动的效果获得奖励。目标是学习一种策略，即在给定的环境状态下选择最佳行动，以最大化长期累积的奖励。

A2C（Advantage Actor-Critic）

Actor-Critic 框架：A2C 基于 Actor-Critic 框架。在这个框架中，有两个主要部分：Actor 和 Critic。Actor 负责选择行动，Critic 评估所选行动的好坏。简单来说，Actor 是决策者，而 Critic 是评价者。
Advantage 概念：在 A2C 中，“Advantage”指的是某个行动相对于平均行动的预期效果好多少。这有助于理解某些行动为什么比其他行动更好。
工作原理：A2C 通过训练 Actor 和 Critic 来改善决策。Actor 根据 Critic 的评价来调整其策略，而 Critic 则根据实际结果来调整其对行动好坏的评估。
通俗解释：可以把 A2C 想象成一个足球队，其中 Actor 是球员，Critic 是教练。球员（Actor）根据场上情况做出决策，而教练（Critic）则评估这些决策并指导球员如何改进。

import torch
import torch.optim as optim
import torch.nn as nn
import torch.nn.functional as F
from torch.distributions import Categorical
import numpy as np
from multiprocessing import Process, Pipe
import argparse
import gym# 建立Actor和Critic网络
class ActorCritic(nn.Module):''' A2C网络模型，包含一个Actor和Critic'''def __init__(self, input_dim, output_dim, hidden_dim):super(ActorCritic, self).__init__()self.critic = nn.Sequential(nn.Linear(input_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, 1))self.actor = nn.Sequential(nn.Linear(input_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, output_dim),nn.Softmax(dim=1),)def forward(self, x):value = self.critic(x)probs = self.actor(x)dist  = Categorical(probs)return dist, valueclass A2C:''' A2C算法'''def __init__(self,n_states,n_actions,cfg) -> None:self.gamma = cfg.gammaself.device = cfg.deviceself.model = ActorCritic(n_states, n_actions, cfg.hidden_size).to(self.device)self.optimizer = optim.Adam(self.model.parameters())def compute_returns(self,next_value, rewards, masks):R = next_valuereturns = []for step in reversed(range(len(rewards))):R = rewards[step] + self.gamma * R * masks[step]returns.insert(0, R)return returns

二、A3C算法

A3C（Asynchronous Advantage Actor-Critic）

异步框架：A3C 在 A2C 的基础上增加了“异步”这一概念。这意味着多个智能体（即多个 Actor-Critic 对）同时在不同的环境副本中学习。
并行学习：在 A3C 中，每个智能体独立地探索环境并学习。它们的学习结果会不时地汇总更新到一个全局模型中。
效率和稳定性：由于是并行处理，A3C 可以更高效地学习，并且由于多个智能体探索不同策略，算法的稳定性和鲁棒性也得到提升。
通俗解释：A3C 就像是许多足球队同时在不同的球场上训练。每个队都有自己的球员（Actor）和教练（Critic），他们独立训练并不断向一个中央团队报告他们的进步。中央团队汇总这些信息，以帮助每个队伍更好地训练。

时间安排

任务	天数	截止时间
Task01: 马尔可夫过程、DQN算法	3天	1月15周一-17日周三
Task02: 策略梯度算法	3天	1月18日周四-20周六
Task03: A2C、A3C算法、JoyRL开源文档（关注多进程）	3天	1月21日周日-23日周二
Task04: DDPG、TD3算法	3天	1月24日周三-26日周五
Task05: PPO算法，JoyRL代码实践(选择任一算法任一环境，研究算法不同参数给实验结果带来的影响，也可以用JoyRL上没有跑过的环境尝试)	6天	1月27日周六-2月1号周四