简单的Q-learning|小明的一维世界(3)

2024-09-08 09:32

本文主要是介绍简单的Q-learning|小明的一维世界(3),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简单的Q-learning|小明的一维世界(1)
简单的Q-learning|小明的一维世界(2)

一维的加速度世界

这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1=1,u2=0,u3=1}

补充:为了不和加速度符号 a a a混淆,此处动作标记全改成 u u u

此刻,小明除了位置信息,还具有速度信息,所以状态为三维的 s t = &lt; x t , v t , a t &gt; s_t=&lt;x_t,v_t,a_t&gt; st=<xt,vt,at>。其中, x t x_t xt为小明 t t t时刻的位置, v t v_t vt为小明 t t t时刻的速度, a t a_t at为小明在 t t t时刻的加速度。此处,小明的加速度空间也是离散的。不失一般性,此处加速度空间设定为
{ a 1 = − 2 , a 2 = − 1 , a 3 = 0 , a 4 = 1 , a 5 = 2 } \{a_1=-2, a_2=-1, a_3=0, a_4=1, a_5=2\} {a1=2,a2=1,a3=0,a4=1,a5=2}

根据组合原则,小明的状态总共有 21 × 7 × 5 = 735 21\times 7 \times 5=735 21×7×5=735个。状态空间如下所示部分:
S = { s 1 = &lt; x 1 , v 1 , a 1 &gt; , s 2 = &lt; x 2 , v 1 , a 1 &gt; , . . . , s 147 = &lt; x 21 , v 7 , a 5 &gt; } S=\{s_1=&lt;x_1, v_1, a_1&gt;, s_2=&lt;x_2, v_1, a_1&gt;,...,s_{147}=&lt;x_{21}, v_7, a_5&gt;\} S={s1=<x1,v1,a1>,s2=<x2,v1,a1>,...,s147=<x21,v7,a5>}

为了加快收敛速度,此处采用稠密奖励函数 r ( s ) = − ∣ x ∣ − ∣ v ∣ − ∣ a ∣ r(s)=-|x|-|v|-|a| r(s)=xva,当小明在中间石时,并且速度为零时,奖励最大。

此时的 Q t a b l e Q_{table} Qtable 735 × 3 735\times 3 735×3的矩阵。

  • 训练
import numpy as np
import matplotlib.pyplot as plt%matplotlib inlinedef model_update(x, v, a, u):a = a+uif a < -2: # 保证加速度在区间[-2,2]a = -2if a > 2:a = 2v = v+aif v < -3:  # 保证速度在区间[-3,3]v = -3if v> 3:v = 3  x = x+vif x < -10: # 保证位置在区间[-10, 10]x = -10if x > 10:x = 10          return x, v, axt = np.random.randint(-9, 10) # 随机初始化状态
vt = np.random.randint(-2, 3)
at = np.random.randint(-1, 2)
Q_table = np.zeros((735, 3)) # 初始化Q值为零
for i in range(5000000):u = np.random.randint(0,3)-1xt1, vt1, at1 = model_update(xt, vt, at, u)r = -abs(xt1)-abs(vt1)-abs(at1)Q_table[((at+2)*7+(vt+3))*21+xt+10, u+1] = r+0.9*np.max(Q_table[((at1+2)*7+(vt1+3))*21+xt1+10]) # 更新Q值xt = xt1vt = vt1at = at1
  • 利用策略
    初始状态为最左,速度最小,也即 s 0 = &lt; − 10 , − 3 , − 2 &gt; s_0=&lt;-10, -3, -2&gt; s0=<10,3,2>
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inlineis_ipython = 'inline' in matplotlib.get_backend()
if is_ipython:from IPython import displayplt.ion()xt = -10
vt = -3
at = -2
x = np.arange(-10, 11)
y = np.zeros(21)
for i in range(100):u = np.argmax(Q_table[((at+2)*7+(vt+3))*21+xt+10])-1xt1, vt1, at1= model_update(xt, vt, at, u)print(xt, vt, at, u , xt1, vt1, at1)xt = xt1vt = vt1at = at1plt.clf()plt.plot(x, y, 'b')plt.plot(xt,[0], 'or')plt.pause(0.1)if is_ipython:display.clear_output(wait=True)display.display(plt.gcf())

steps. ( x t , v t , a t , u t , x t + 1 , v t + 1 , a t + 1 ) (x_t, v_t, a_t, u_t, x_{t+1}, v_{t+1}, a_{t+1}) (xt,vt,at,ut,xt+1,vt+1,at+1)
1. ( − 10 , − 3 , − 2 , 1 , − 10 , − 3 , − 1 ) (-10, -3, -2, 1, -10, -3, -1) (10,3,2,1,10,3,1)
2. ( − 10 , − 3 , − 1 , 1 , − 10 , − 3 , 0 ) (-10, -3, -1, 1, -10, -3, 0) (10,3,1,1,10,3,0)
3. ( − 10 , − 3 , 0 , 1 , − 10 , − 2 , 1 ) (-10, -3, 0, 1, -10, -2, 1) (10,3,0,1,10,2,1)
4. ( − 10 , − 2 , 1 , 1 , − 10 , 0 , 2 ) (-10, -2, 1, 1, -10, 0, 2) (10,2,1,1,10,0,2)
5. ( − 10 , 0 , 2 , − 1 , − 9 , 1 , 1 ) (-10, 0, 2, -1, -9, 1, 1) (10,0,2,1,9,1,1)
6. ( − 9 , 1 , 1 , 0 , − 7 , 2 , 1 ) (-9, 1, 1, 0, -7, 2, 1) (9,1,1,0,7,2,1)
7. ( − 7 , 2 , 1 , − 1 , − 5 , 2 , 0 ) (-7, 2, 1, -1, -5, 2, 0) (7,2,1,1,5,2,0)
8. ( − 5 , 2 , 0 , 0 , − 3 , 2 , 0 ) (-5, 2, 0, 0, -3, 2, 0) (5,2,0,0,3,2,0)
9. ( − 3 , 2 , 0 , 0 , − 1 , 2 , 0 ) (-3, 2, 0, 0, -1, 2, 0) (3,2,0,0,1,2,0)
10. ( − 1 , 2 , 0 , − 1 , 0 , 1 , − 1 ) (-1, 2, 0, -1, 0, 1, -1) (1,2,0,1,0,1,1)
11. ( 0 , 1 , − 1 , 0 , 0 , 0 , − 1 ) (0, 1, -1, 0, 0, 0, -1) (0,1,1,0,0,0,1)
12. ( 0 , 0 , − 1 , 1 , 0 , 0 , 0 ) (0, 0, -1, 1, 0, 0, 0) (0,0,1,1,0,0,0)
13. ( 0 , 0 , 0 , 0 , 0 , 0 , 0 ) (0, 0, 0, 0, 0, 0, 0) (0,0,0,0,0,0,0)

动态图——绿色的点代表小明
这里写图片描述

此处测试的初始状态都是取最坏的值,所以,步长可能会长一点。如果是从最左位置出发时,初始速度为0,初始加速度为0,则最后从最左到中间位置的所需步长:加速度世界<速度世界<位置世界。不过这和速度与加速度设定的区间是有关系的。总体来说,加速度世界比速度世界更加灵活,反应更快;而速度世界中,小明的反应又比位置世界中反应快,而不是傻傻的一步一个脚印。

##结语

到此,小明的一维世界系统到此就完结了。从一维的位置世界到一维的速度世界,再到一维的加速度世界。世界从易到难,状态个数从少到多,训练所需步长从少到多。当然,这都是在基于Q-table的Q-learning算法中,如果将Q-table换成表征能力更强的neural network,我们又可以做更复杂更有意思的事情了。

这篇关于简单的Q-learning|小明的一维世界(3)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1147734

相关文章

如何使用Python实现一个简单的window任务管理器

《如何使用Python实现一个简单的window任务管理器》这篇文章主要为大家详细介绍了如何使用Python实现一个简单的window任务管理器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起... 任务管理器效果图完整代码import tkinter as tkfrom tkinter i

C++中函数模板与类模板的简单使用及区别介绍

《C++中函数模板与类模板的简单使用及区别介绍》这篇文章介绍了C++中的模板机制,包括函数模板和类模板的概念、语法和实际应用,函数模板通过类型参数实现泛型操作,而类模板允许创建可处理多种数据类型的类,... 目录一、函数模板定义语法真实示例二、类模板三、关键区别四、注意事项 ‌在C++中,模板是实现泛型编程

使用EasyExcel实现简单的Excel表格解析操作

《使用EasyExcel实现简单的Excel表格解析操作》:本文主要介绍如何使用EasyExcel完成简单的表格解析操作,同时实现了大量数据情况下数据的分次批量入库,并记录每条数据入库的状态,感兴... 目录前言固定模板及表数据格式的解析实现Excel模板内容对应的实体类实现AnalysisEventLis

Java中数组转换为列表的两种实现方式(超简单)

《Java中数组转换为列表的两种实现方式(超简单)》本文介绍了在Java中将数组转换为列表的两种常见方法使用Arrays.asList和Java8的StreamAPI,Arrays.asList方法简... 目录1. 使用Java Collections框架(Arrays.asList)1.1 示例代码1.

Java8需要知道的4个函数式接口简单教程

《Java8需要知道的4个函数式接口简单教程》:本文主要介绍Java8中引入的函数式接口,包括Consumer、Supplier、Predicate和Function,以及它们的用法和特点,文中... 目录什么是函数是接口?Consumer接口定义核心特点注意事项常见用法1.基本用法2.结合andThen链

C++初始化数组的几种常见方法(简单易懂)

《C++初始化数组的几种常见方法(简单易懂)》本文介绍了C++中数组的初始化方法,包括一维数组和二维数组的初始化,以及用new动态初始化数组,在C++11及以上版本中,还提供了使用std::array... 目录1、初始化一维数组1.1、使用列表初始化(推荐方式)1.2、初始化部分列表1.3、使用std::

redis群集简单部署过程

《redis群集简单部署过程》文章介绍了Redis,一个高性能的键值存储系统,其支持多种数据结构和命令,它还讨论了Redis的服务器端架构、数据存储和获取、协议和命令、高可用性方案、缓存机制以及监控和... 目录Redis介绍1. 基本概念2. 服务器端3. 存储和获取数据4. 协议和命令5. 高可用性6.

JAVA调用Deepseek的api完成基本对话简单代码示例

《JAVA调用Deepseek的api完成基本对话简单代码示例》:本文主要介绍JAVA调用Deepseek的api完成基本对话的相关资料,文中详细讲解了如何获取DeepSeekAPI密钥、添加H... 获取API密钥首先,从DeepSeek平台获取API密钥,用于身份验证。添加HTTP客户端依赖使用Jav

利用Python编写一个简单的聊天机器人

《利用Python编写一个简单的聊天机器人》这篇文章主要为大家详细介绍了如何利用Python编写一个简单的聊天机器人,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 使用 python 编写一个简单的聊天机器人可以从最基础的逻辑开始,然后逐步加入更复杂的功能。这里我们将先实现一个简单的

使用IntelliJ IDEA创建简单的Java Web项目完整步骤

《使用IntelliJIDEA创建简单的JavaWeb项目完整步骤》:本文主要介绍如何使用IntelliJIDEA创建一个简单的JavaWeb项目,实现登录、注册和查看用户列表功能,使用Se... 目录前置准备项目功能实现步骤1. 创建项目2. 配置 Tomcat3. 项目文件结构4. 创建数据库和表5.