深度强化学习系列tensorflow2.0自定义loss函数实现policy gradient策略梯度

本文主要是介绍深度强化学习系列tensorflow2.0自定义loss函数实现policy gradient策略梯度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本篇文章利用tensorflow2.0自定义loss函数实现policy gradient策略梯度,自定义loss=-log(prob) *Vt
现在训练最高分能到193分,但是还是不稳定,在修改中,欢迎一起探讨文章代码也有参考莫烦大佬的代码action_dim = 2 //定义动作
state_dim = 4 //定义状态
env = gym.make('CartPole-v0')
class PGModel(tf.keras.Model):def __init__(self):super().__init__()self.dense1 = layers.Dense(128,input_dim=state_dim,activation='relu')layers.Dropout(0.1)self.all_acts = layers.Dense(units=action_dim)self.x = 0def call(self,inputs):x = self.dense1(inputs)x = self.all_acts(x)self.x = xoutput = tf.nn.softmax(x)return outputclass PG():def __init__(self):self.model = PGModel()def choose_action(self, s):prob = self.model.predict(np.array([s]))[0]#print(prob)return np.random.choice(len(prob),p=prob)def discount_reward(self,rewards,gamma=0.95): #衰减reward 通过最后一步奖励反推真实奖励out = np.zeros_like(rewards)dis_reward = 0for i in reversed(range(len(rewards))):dis_reward = dis_reward + gamma * rewards[i]  # 前一步的reward等于后一步衰减reward加上即时奖励乘以衰减因子out[i] = dis_rewardreturn  out/np.std(out - np.mean(out))def all_actf(self):all_act = self.model.xprint(all_act)return all_actdef reca_batch(self,a_batch):a = a_batchreturn adef def_loss(self,label=reca_batch,logit=all_actf):  //自定义loss函数neg_log_prob = tf.nn.softmax_cross_entropy_with_logits(labels=label,logits=logit)return neg_log_probdef train(self,records): #训练s_batch = np.array([record[0] for record in records]) #取状态,每次batch个状态a_batch = np.array([[1 if record[1]==i else 0 for i in range(action_dim)]for record in records])self.reca_batch(a_batch)prob_batch = self.model.predict(s_batch) * a_batchr_batch = self.discount_reward([record[2] for record in records ])self.model.compile(loss=self.def_loss,optimizer=optimizers.Adam(0.001))self.model.fit(s_batch,prob_batch,sample_weight=r_batch,verbose=1)episodes = 2000
score_list= []
pg = PG()for i in range(episodes):score = 0records = []s = env.reset()while True:a = pg.choose_action(s)#print(a)next_s,r,done,_ = env.step(a)records.append((s, a, r))s = next_sscore += rif done:pg.train(records)score_list.append(score)print("episode:", i, "score:", score, "maxscore:", max(score_list))breakif np.mean(score_list[-10:]) > 195:pg.model.save('CarPoleModel.h5')breakenv.close()

这篇关于深度强化学习系列tensorflow2.0自定义loss函数实现policy gradient策略梯度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/921862

相关文章

MySQL索引的优化之LIKE模糊查询功能实现

《MySQL索引的优化之LIKE模糊查询功能实现》:本文主要介绍MySQL索引的优化之LIKE模糊查询功能实现,本文通过示例代码给大家介绍的非常详细,感兴趣的朋友一起看看吧... 目录一、前缀匹配优化二、后缀匹配优化三、中间匹配优化四、覆盖索引优化五、减少查询范围六、避免通配符开头七、使用外部搜索引擎八、分

Python实现特殊字符判断并去掉非字母和数字的特殊字符

《Python实现特殊字符判断并去掉非字母和数字的特殊字符》在Python中,可以通过多种方法来判断字符串中是否包含非字母、数字的特殊字符,并将这些特殊字符去掉,本文为大家整理了一些常用的,希望对大家... 目录1. 使用正则表达式判断字符串中是否包含特殊字符去掉字符串中的特殊字符2. 使用 str.isa

Spring Boot 集成 Quartz并使用Cron 表达式实现定时任务

《SpringBoot集成Quartz并使用Cron表达式实现定时任务》本篇文章介绍了如何在SpringBoot中集成Quartz进行定时任务调度,并通过Cron表达式控制任务... 目录前言1. 添加 Quartz 依赖2. 创建 Quartz 任务3. 配置 Quartz 任务调度4. 启动 Sprin

Android实现悬浮按钮功能

《Android实现悬浮按钮功能》在很多场景中,我们希望在应用或系统任意界面上都能看到一个小的“悬浮按钮”(FloatingButton),用来快速启动工具、展示未读信息或快捷操作,所以本文给大家介绍... 目录一、项目概述二、相关技术知识三、实现思路四、整合代码4.1 Java 代码(MainActivi

使用Python实现一个优雅的异步定时器

《使用Python实现一个优雅的异步定时器》在Python中实现定时器功能是一个常见需求,尤其是在需要周期性执行任务的场景下,本文给大家介绍了基于asyncio和threading模块,可扩展的异步定... 目录需求背景代码1. 单例事件循环的实现2. 事件循环的运行与关闭3. 定时器核心逻辑4. 启动与停

基于Python实现读取嵌套压缩包下文件的方法

《基于Python实现读取嵌套压缩包下文件的方法》工作中遇到的问题,需要用Python实现嵌套压缩包下文件读取,本文给大家介绍了详细的解决方法,并有相关的代码示例供大家参考,需要的朋友可以参考下... 目录思路完整代码代码优化思路打开外层zip压缩包并遍历文件:使用with zipfile.ZipFil

Python实现word文档内容智能提取以及合成

《Python实现word文档内容智能提取以及合成》这篇文章主要为大家详细介绍了如何使用Python实现从10个左右的docx文档中抽取内容,再调整语言风格后生成新的文档,感兴趣的小伙伴可以了解一下... 目录核心思路技术路径实现步骤阶段一:准备工作阶段二:内容提取 (python 脚本)阶段三:语言风格调

C#实现将Excel表格转换为图片(JPG/ PNG)

《C#实现将Excel表格转换为图片(JPG/PNG)》Excel表格可能会因为不同设备或字体缺失等问题,导致格式错乱或数据显示异常,转换为图片后,能确保数据的排版等保持一致,下面我们看看如何使用C... 目录通过C# 转换Excel工作表到图片通过C# 转换指定单元格区域到图片知识扩展C# 将 Excel

基于Java实现回调监听工具类

《基于Java实现回调监听工具类》这篇文章主要为大家详细介绍了如何基于Java实现一个回调监听工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录监听接口类 Listenable实际用法打印结果首先,会用到 函数式接口 Consumer, 通过这个可以解耦回调方法,下面先写一个

使用Java将DOCX文档解析为Markdown文档的代码实现

《使用Java将DOCX文档解析为Markdown文档的代码实现》在现代文档处理中,Markdown(MD)因其简洁的语法和良好的可读性,逐渐成为开发者、技术写作者和内容创作者的首选格式,然而,许多文... 目录引言1. 工具和库介绍2. 安装依赖库3. 使用Apache POI解析DOCX文档4. 将解析