Q-Learning学习笔记-李宏毅

本文主要是介绍Q-Learning学习笔记-李宏毅，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

introduction

学习的并不是policy，而是学习critic，critic用来评价policy好还是不好；
一种critic：state value function $V^\pi(s)$ 是给定一个policy $\pi$ ，在遇到state $s$ 之后累积的reward的期望值，以游戏举例也就是一个actor在看到某一个画面 $s$ 之后直到游戏结束预期可以获得多大的value，更直观的解释是到达游戏的某一个节点state $s$ ，当前游戏还可以得多少分，critic需要和一个特定的actor绑定才可以得到evaluate；
如何衡量 $V^\pi(s)$ ，有两种方法，其一是Monte-Carlo，给出一个state玩游戏到最后会得到一个value，收集多个 $s t a t e, v a l u e$ 对，然后将 $V^\pi(s)$ 看做一个network，当做一个回归问题进行训练；另一种方法是Temporal-difference(TD) based方法，基于的是 $V^\pi(s_t) = V^\pi(s_{t + 1})+ r_t$ ，在这种方法之下就不需要玩完一整场游戏才能获得reward值，而是在当前state为 $s_t$ 的情况下，采取action $a_t$ ，此时会转到 $s_{t + 1}$ ，并且会获得一个reward $r_t$ ，此时模型最后追求的不是像方法1一样输出一场游戏总的reward，而是要尽量保证 $V^\pi(s_t) - V^\pi(s_{t + 1}) = r_t$ ，模型还是输出value，但是损失函数是根据差值和reward接近得到的；
两种方法的对比MC的variance比TD方法大；
另一种critic：state-action value function $Q^\pi(s,a)$ ，当给定actor $\pi$ ，在遇到state $s$ 的时候采取action $a$ 后reward的期望值，有两种network形式一种是输入 $s, a$ 输出一个常量代表value，另一种是输入 $s$ 输出在 $a$ 取不同值的时候的value值；
有了critic就可以进行Q-learning，过程，首先初始化一个policy $\pi$ ，然后学习其对应的critic $Q^\pi$ ，之后就可以更新policy $\pi'$ ，这个 $\pi'$ 比 $\pi$ 好，得到的方式 $\pi'(s) = arg\ \underset{a}{max} Q^\pi(s,a)$ ，可以看到 $\pi'$ 是通过Q解优化方程得到的，这个过程反复迭代下去，这个优化在action是离散的时候可以比较好解，连续时候，更新之后的 $\pi'$ 比之前的 $\pi$ 好，是有对于任意的state $s$ 有 $V^{\pi'}(s)\geq V^\pi(s)$ ；
Target Network：在训练TD类critic的时候，有两个network，一个输入 $s_t,a_t)$ ，输出 $Q^\pi(s_t,a_t)$ ，另一个输入 $(s_{t + 1},\pi(s_{t + 1}))$ 输出 $Q^\pi(s_{t + 1},\pi(s_{t + 1}))$ ，然后训练是通过计算两个输出的差值和 $r_t$ 计算损失得到的，但是此时不好训练，所以将第二个network固定住，第二个网络也叫做Target Network，当然Target Network也不是完全不更新，一般是将第一个网络更新一定次数之后再直接用第一个network的参数更新Target Network的参数，只是不要两个network一起参与训练；
Exploration：在第二种critic中，更新 $\pi$ 的方式是 $\pi'(s) = arg\ \underset{a}{max} Q^\pi(s,a)$ ，由于结果是sample来进行的，所以会出现偏差，而且偏差会持续下去，一个比较实际的例子是进一家吃饭，点到一个还可以的饭，之后就会一直点他，但是可能还有更好吃的；所以要给这个过程添加一些扰动，有两种方法，其一是Epsilon Greedy： $\begin{cases}arg\ \underset{a}{max}Q(s,a),&with\ probability\ 1-\epsilon\\random & otehrwise\end{cases}$ ；另一种方法是Boltzmann Exploration： $\frac{exp(Q(s,a))}{\sum_aexp(Q(s,a))}$ 以确保尽管几率小，但是行为还是有概率被取到；
Replay Buffer：将数据都放到一个buffer里面，有一个限制的大小，在buffer满的时候将旧的数据丢掉，每次训练的时候就随机选出一个batch的数据，然后训练Network；这样就是一个off-policy的做法，因为数据不是全由当前policy得到的，可能是由历史policy得到的；
一个典型的Q-Learning算法：

训练Q-Learning的tips

Q value is usually over-estimated：因为原来回归的目标 $Q(s_t,a_t)\rightarrow r_t + \underset{a}{max}Q(s_{t + 1},a)$ ，这样每次都偏向于选择被高估的action来作为目标，缓解办法：double DQN，回归目标换成 $Q(s_t,a_t)\rightarrow r_t + Q'(s_{t + 1}, arg\ \underset{a}{max}Q(s_{t + 1},a))$ ，这个 $Q^{'}$ 就是Target Network；
Dueling DQN：修改了Network的架构，原来是直接输出Q value，现在是分为两条支路，分别输出 $V (s), A (s, a)$ ，最后的Q value是两个输出的加和，好处，现在假设更新了state，那么 $V (s)$ 变化了，得到的Q value的值在每个state下都会变化，而不是只有在sample到对于state的情况下才能变化，在训练的时候还会加上constraint， $A (s, a)$ 对于某个state的加和为0；
Prioritized Reply：在buffer中采样的时候加上权重，增加困难样本的权重；
multi-step：在buffer里面存储的数据不仅仅是一步，而是存的多步，MC和TD之间的balance；
Noisy Net：exploration的另一种方法，在network的参数上面加上noise，上面epsilon exploration是在action上面加noise；

Q-Learning for Continuous Actions

action $a$ 是一个连续的vector，此时解 $arg\ \underset{a}{max}Q(s,a)$ 比较难，此时没有办法枚举所有action来算出哪一个action的value最大；
方法1：sample一个action集合，之后计算看那个action的Q value最大；
方法2：用梯度下降的方法来解上面那个优化问题；
方法3：专门设计一个network来使得上面的优化容易，对于 $Q^\pi$ ，输入state $s$ ，输出 $\mu(s),\sum(s),V(s)$ ，分别是vector,matrix,scalar，最后的Q value的计算是 $\mu(s))^T\sum(s)(a - \mu(s)) + V(s)$ ，此时 $\mu(s) = arg\ \underset{a}{max}Q(s,a)$ ，因为上面 $Q (s, a)$ 的第一项一定是负的，越靠近0越好；