强化学习-MAPPO算法解析与实践-Multi Agent Proximal Policy Optimization

本文主要是介绍强化学习-MAPPO算法解析与实践-Multi Agent Proximal Policy Optimization,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一 算法简介

        mappo 是一种将ppo算法扩展到多智能体情况的算法,在讨论过这种算法的论文中,比较有名和权威的是Nips2021上发表的《The Surprising Effectiveness of PPO in Cooperative》。比较遗憾的是,可能作者出于自己不是最早提出mappo算法的人的原因,论文中并没有将mappo算法的具体实现作详细介绍(而最早提出mappo的论文又没有附上代码),我们只能根据其提供的代码和论文中粗略的描述来进行学习。

1. 网络结构

        和单智能体ppo算法一样,mappo算法中每个智能体都有各自的actor 网络和 critic网络(如果所有智能体的状态空间和动作空间也相同,即同构,也可以所有智能体共享一套actor和critic网络)。与单智能体ppo不同的是,mappo的critic网络可以接收有关全局状态的信息,这个全局状态可以是由所有智能体的观察拼接而成,也可以是环境直接提供。

2.损失函数

        和单智能体ppo算法一样,损失函数由acrot loss和critic loss组成

        actor loss 为 最小化负的代理在当前策略下的预期累积奖励 -E[ \frac{\pi(a|S_t;\theta) }{\pi(a|S_t;\theta_k)} A_t]

        critic loss 为 回报和状态价值函数的均方差  [(G_t-V(s,w))]^{2}

3.采样和更新方式

关于采样和更新,论文中没有介绍细节,本段从代码中总结。

3.1采样

        如智能体间不共享参数,即每个智能体有各自的actor和critic网络,则给每个智能体建立一个replaybuffer,将该智能体交互中获得的 st,at,r,st+1 存入对应的replaybuffer中。另在replaybuffer中增加mask 组,记录每一时刻智能体是否存活,以便后续死亡的智能体后续数据不用于更新网络。一般情况下不同智能体间不共享奖励。

        每个智能体决策时,可以不把其他智能体的动作加入观察,可以正常收敛。

                                                  图一:env_runner.py中采样过程

3.2更新

         如智能体间不共享参数,则针对每一个智能体分别从replaybuffer中抽样,训练其网络,其更新函数与ppo更新函数整体一致,出了增加了GAE、value normlization等trick

                                                图二:base_runner.py中采样过程 

4.必要的trick

4.1 GAE和Value Normalization

        论文中虽未对网络做出具体介绍,但是使用的trick给了很多笔墨。GAE和Value Normalization就是其中之二,也是最通用的两个trick。GAE是对价值函数的一种平衡方法,价值函数V的评估方法中,一步TD的方差小,偏差大,而蒙特卡洛法的偏差小,方差大,为了结合两种算法,GAE(generalized advantage estimator)是对优势函数A的估计,它用从TD(0) 到TD(n)的加权和表示V,进而估计优势函数A,TD(0) 到TD(n)权重之和是一, n代表改慕结束的步数。【有点像离线 λ 回报算法思想】

        Value Normalization是在训练时对critic网络输出的V值归一化,即减去均值除以方差,作者认为这样使得训练更加稳定。但是在计算GAE时又对归一化的V反归一化恢复了原值。

                                                图三:MAPPO论文中关于Value Normalization 

                                                图四:GAE公式来自CSDN@星之所望  

4.2其他trick

        论文中还包括其他trick,通用性和重要度不如4.1,不再详细展开分别为:

        建议1:When available, include both local, agent-specific features and global features in the value function input. Also check that these features do not unnecessarily increase the input dimension.

        建议2:Use at most 10 training epochs on difficult environments and 15 training epochs on easy environments. Additionally, avoid splitting data into mini-batches

        建议3:For the best PPO performance, maintain a clipping ratio ϵ under 0.2; within this range, tune ϵ as a trade-off between training stability and fast convergence

        建议4:Utilize a large batch size to achieve best task performance with MAPPO. Then, tune the batch size to optimize for sample-efficiency.

二 算法实践

1.环境介绍

        使用ma_gym 环境中的combat环境进行实践,该环境可从github下载

        ma-gym 库中的 Combat 环境。Combat 是一个在二维的格子世界上进行的两个队伍的对战模拟游戏,每个智能体的动作集合为:向四周移动格,攻击指定敌方智能体(因而动作空间随敌方智能体增多增多,动作空间维数=4+n+1,4代表上下左右移动,n代表攻击敌方n号智能体),或者不采取任何行动。起初每个智能体有 3 点生命值,如果智能体在敌人的攻击范围内被攻击到了,则会扣 1 生命值,生命值掉为 0 则死亡,最后存活的队伍获胜。每个智能体的攻击有一轮的冷却时间。

        本次实验旨在验证多智能体ppo,所以设置双方智能体为4.

2.实验代码

        mappo训练代码选用github上 light-mappo 项目代码这是一个轻量化的mappo算法

        下载代码后将ma_env放进项目根目录下,修改env_core.py代码如下

import timeimport numpy as npfrom ma_gym.envs.combat.combat import Combat
class EnvCore(object):"""# 环境中的智能体"""def __init__(self):self.agent_num = 4  # 设置智能体(小飞机)的个数,这里设置为两个 # set the number of agents(aircrafts), here set to twoteam_size = self.agent_numgrid_size = (15, 15)self.env = Combat(grid_shape=grid_size, n_agents=team_size, n_opponents=team_size)self.obs_dim = 150  # 设置智能体的观测维度 # set the observation dimension of agentsself.action_dim = self.env.action_space[0].n  # 设置智能体的动作维度,这里假定为一个五个维度的 # set the action dimension of agents, here set to a five-dimensionaldef reset(self):s = self.env.reset()sub_agent_obs = []for i in range(self.agent_num):sub_obs = np.array(s[i])#np.random.random(size=(14,))sub_agent_obs.append(sub_obs)return sub_agent_obsdef step(self, actions):self.env.render("human")time.sleep(0.4)sub_agent_obs = []sub_agent_reward = []sub_agent_done = []sub_agent_info = []action_index = [int(np.where(act==1)[0][0]) for act in actions]next_s, r, done, info = self.env.step(action_index)for i in range(self.agent_num):# r[agent_i] + 100 if info['win'] else r[agent_i] - 0.1sub_agent_obs.append(np.array(next_s[i]))sub_agent_reward.append([r[i] + 100 if info['win'] else r[i] - 0.1])sub_agent_done.append(done[i])sub_agent_info.append(info)return [sub_agent_obs, sub_agent_reward, sub_agent_done, sub_agent_info]

3.实验设置

        保持其他参数一致,分别设置四个智能体工艺同一套网络参数和4套网络参数进行实验。 旨在观察同一套参数控制同构智能体和不同参数控制同构智能体有什么不同。

4.实验结果

不同网络参数下智能体收敛曲线:

 

 

 

采用相同 网络参属下智能体收敛情况

 

由上图比较得,其他条件相同下,采用同一模型的多智能体和采用不同模型的多智能体都能正常收敛, 采用同一模型的多智能体收敛速度和程度略高于采用不同模型的智能体

5.效果demo

MAPPO 算法训练多智能体联合对抗

这篇关于强化学习-MAPPO算法解析与实践-Multi Agent Proximal Policy Optimization的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/938167

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖