简单的Q-learning|小明的一维世界(2)

2024-09-08 09:32

本文主要是介绍简单的Q-learning|小明的一维世界(2),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO!

一维的速度世界

这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { a 1 = − 1 , a 2 = 0 , a 3 = 1 } \{a_1=-1, a_2=0, a_3=1\} {a1=1,a2=0,a3=1}

此刻,小明除了位置信息,还具有速度信息,所以状态为二维的 s t = &lt; x t , v t &gt; s_t=&lt;x_t,v_t&gt; st=<xt,vt>。其中, x t x_t xt为小明 t t t时刻的位置, v t v_t vt为小明 t t t时刻的速度。此处,小明的速度空间和位置空间一样也是离散的。不失一般性,此处速度空间设定为
{ v 1 = − 3 , v 2 = − 2 , v 3 = − 1 , v 4 = 0 , v 5 = 1 , v 6 = 2 , v 7 = 3 } \{v_1=-3, v_2=-2, v_3=-1, v_4=0, v_5=1, v_6=2, v_7=3\} {v1=3,v2=2,v3=1,v4=0,v5=1,v6=2,v7=3}

此处需要注意,我们定义的状态空间,包括了当前的位置和速度信息。我们稍稍想一下,速度和位置对于速度世界的小明来说,都很重要。我偿试过,只利用位置当作状态,奖励函数变为 r ( s ) = − ∣ x ∣ r(s)=-|x| r(s)=x,小明的行动还是对速度进行增减1、或不变三个动作。最后给它一个很大的训练次数,发现仍然收敛不了,最终的策略是,小明从最左往中间走,经过中点继续往右走,到达最右又往左走,这样一直最左到最右、最右到最左反复做简谐振动,就是不会停在中间那块石头上。所以说,对于速度世界,小明自身的速度信息是很重要的,不能不加进状态里。换句话说,小明最终成功的评判与位置和速度有直接关系——到达中间的石头的时候速度也为零。后一节的加速度世界也是这样,小明在到达中间那块石头上时,加速度与速度正好为零,所以下一节,我们将小明的加速度、速度、以及位置都作为状态的必要信息。这是一个简单的世界,我们可以通过这样简单的分析,得到小明它需要哪些信息。那么,对于很复杂的世界,例如小明能够获取视觉信息,一张图片中的每个像素点都是一个信息。但是,不是所有的像素点都和当前任务相关。我们只要从这太过丰富的信息中提取出对任务有用的一小部分信息作为状态就足够了。
简而言之有三:
(1)选择哪些可用的信息作为状态对于Q-learning训练的效率很重要,甚至影响它能不能成功学习到合适的策略。
(2)状态中包括的信息不是越多越好,太多无关的信息会把有用的信息湮没掉,这样会使机器人学不到数据中包含的策略。
(3)真实的Q-learning的有效性,需要很多小trick,例如:特征提取、降维、奖励函数设计等。

根据组合原则,小明的状态总共有 21 × 7 = 147 21\times 7=147 21×7=147个。状态空间如下所示部分:
S = { s 1 = &lt; x 1 , v 1 &gt; , s 2 = &lt; x 2 , v 1 &gt; , . . . , s 147 = &lt; x 21 , v 7 &gt; } S=\{s_1=&lt;x_1, v_1&gt;, s_2=&lt;x_2, v_1&gt;,...,s_{147}=&lt;x_{21}, v_7&gt;\} S={s1=<x1,v1>,s2=<x2,v1>,...,s147=<x21,v7>}

为了加快收敛速度,此处采用稠密奖励函数 r ( s ) = − ∣ x ∣ − ∣ v ∣ r(s)=-|x|-|v| r(s)=xv,当小明在中间石时,并且速度为零时,奖励最大。

此时的 Q t a b l e Q_{table} Qtable 147 × 3 147\times 3 147×3的矩阵。

  • 训练
import numpy as npdef model_update(x, v, a):v = v+ax = x+vif v < -3: # 保证速度在区间内[-3, 3]v = -3if v> 3:v = 3if x < -10: #保证位置在区间内[-10, 10]x = -10if x > 10:x = 10    return x, vxt = np.random.randint(-9, 10)  #随机初始状态
vt = np.random.randint(-2, 3)
Q_table = np.zeros((147, 3))  #初始Q table 中的值全为零
for i in range(50000):a = np.random.randint(0,3)-1xt1, vt1 = model_update(xt, vt, a)  r = -abs(xt1)-abs(vt1)Q_table[(vt+3)*21+xt+10, a+1] = r+0.9*np.max(Q_table[(vt1+3)*21+xt1+10]) # 更新Q tablext = xt1vt = vt1
  • 利用策略
    初始状态为最左,速度最小,也即 s 0 = &lt; − 10 , − 3 &gt; s_0=&lt;-10, -3&gt; s0=<10,3>
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inlineis_ipython = 'inline' in matplotlib.get_backend()
if is_ipython:from IPython import displayplt.ion()
xt = -10
vt = -3
x = np.arange(-10, 11)
y = np.zeros(21)
for i in range(30):a = np.argmax(Q_table[(vt+3)*21+xt+10])-1xt1, vt1 = model_update(xt, vt, a)
#     print(xt, vt, a, xt1, vt1)xt = xt1vt = vt1plt.clf()plt.plot(x, y, 'ob')plt.plot(0.0, 0.0, 'or')plt.plot(xt,[0], 'og')plt.pause(1)if is_ipython:display.clear_output(wait=True)display.display(plt.gcf())

steps. ( x t , v t , a t , x t + 1 , v t + 1 ) (x_t, v_t, a_t, x_{t+1}, v_{t+1}) (xt,vt,at,xt+1,vt+1)
1.(-10, -3, 1, -10, -2)
2.(-10, -2, 1, -10, -1)
3.(-10, -1, 1, -10, 0)
4.(-10, 0, 1, -9, 1)
5.(-9, 1, 1, -7, 2)
6.(-7, 2, 1, -4, 3)
7.(-4, 3, -1, -2, 2)
8.(-2, 2, -1, -1, 1)
9.(-1, 1, 0, 0, 1)
10.(0, 1, -1, 0, 0)
11.(0, 0, 0, 0, 0)

动态图——绿色的点代表小明
这里写图片描述
我们发现,小明从最左到中间点的过程,有一个先加速后减速的过程,跳一格、跳二格、跳三格、跳二格、跳一格。这说明,速度控制是有效的,更加接近我们看到喜欢的事物的真实状态,先加速跑过去,然后减速。但是,有时候人做的不够好,刹不住脚。


简单的Q-learning|小明的一维世界(1)
简单的Q-learning|小明的一维世界(3)

这篇关于简单的Q-learning|小明的一维世界(2)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1147733

相关文章

使用IntelliJ IDEA创建简单的Java Web项目完整步骤

《使用IntelliJIDEA创建简单的JavaWeb项目完整步骤》:本文主要介绍如何使用IntelliJIDEA创建一个简单的JavaWeb项目,实现登录、注册和查看用户列表功能,使用Se... 目录前置准备项目功能实现步骤1. 创建项目2. 配置 Tomcat3. 项目文件结构4. 创建数据库和表5.

使用PyQt5编写一个简单的取色器

《使用PyQt5编写一个简单的取色器》:本文主要介绍PyQt5搭建的一个取色器,一共写了两款应用,一款使用快捷键捕获鼠标附近图像的RGB和16进制颜色编码,一款跟随鼠标刷新图像的RGB和16... 目录取色器1取色器2PyQt5搭建的一个取色器,一共写了两款应用,一款使用快捷键捕获鼠标附近图像的RGB和16

四种简单方法 轻松进入电脑主板 BIOS 或 UEFI 固件设置

《四种简单方法轻松进入电脑主板BIOS或UEFI固件设置》设置BIOS/UEFI是计算机维护和管理中的一项重要任务,它允许用户配置计算机的启动选项、硬件设置和其他关键参数,该怎么进入呢?下面... 随着计算机技术的发展,大多数主流 PC 和笔记本已经从传统 BIOS 转向了 UEFI 固件。很多时候,我们也

基于Qt开发一个简单的OFD阅读器

《基于Qt开发一个简单的OFD阅读器》这篇文章主要为大家详细介绍了如何使用Qt框架开发一个功能强大且性能优异的OFD阅读器,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 目录摘要引言一、OFD文件格式解析二、文档结构解析三、页面渲染四、用户交互五、性能优化六、示例代码七、未来发展方向八、结论摘要

MyBatis框架实现一个简单的数据查询操作

《MyBatis框架实现一个简单的数据查询操作》本文介绍了MyBatis框架下进行数据查询操作的详细步骤,括创建实体类、编写SQL标签、配置Mapper、开启驼峰命名映射以及执行SQL语句等,感兴趣的... 基于在前面几章我们已经学习了对MyBATis进行环境配置,并利用SqlSessionFactory核

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu2289(简单二分)

虽说是简单二分,但是我还是wa死了  题意:已知圆台的体积,求高度 首先要知道圆台体积怎么求:设上下底的半径分别为r1,r2,高为h,V = PI*(r1*r1+r1*r2+r2*r2)*h/3 然后以h进行二分 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#includ

揭秘世界上那些同时横跨两大洲的国家

我们在《世界人口过亿的一级行政区分布》盘点全球是那些人口过亿的一级行政区。 现在我们介绍五个横跨两州的国家,并整理七大洲和这些国家的KML矢量数据分析分享给大家,如果你需要这些数据,请在文末查看领取方式。 世界上横跨两大洲的国家 地球被分为七个大洲分别是亚洲、欧洲、北美洲、南美洲、非洲、大洋洲和南极洲。 七大洲示意图 其中,南极洲是无人居住的大陆,而其他六个大洲则孕育了众多国家和

usaco 1.3 Prime Cryptarithm(简单哈希表暴搜剪枝)

思路: 1. 用一个 hash[ ] 数组存放输入的数字,令 hash[ tmp ]=1 。 2. 一个自定义函数 check( ) ,检查各位是否为输入的数字。 3. 暴搜。第一行数从 100到999,第二行数从 10到99。 4. 剪枝。 代码: /*ID: who jayLANG: C++TASK: crypt1*/#include<stdio.h>bool h

uva 10387 Billiard(简单几何)

题意是一个球从矩形的中点出发,告诉你小球与矩形两条边的碰撞次数与小球回到原点的时间,求小球出发时的角度和小球的速度。 简单的几何问题,小球每与竖边碰撞一次,向右扩展一个相同的矩形;每与横边碰撞一次,向上扩展一个相同的矩形。 可以发现,扩展矩形的路径和在当前矩形中的每一段路径相同,当小球回到出发点时,一条直线的路径刚好经过最后一个扩展矩形的中心点。 最后扩展的路径和横边竖边恰好组成一个直