参考 Reinforcement Learning, Second Edition An Introduction By Richard S. Sutton and Andrew G. Barto 强化学习与监督学习 强化学习与其他机器学习方法最大的不同,就在于前者的训练信号是用来评估(而不是指导)给定动作的好坏的。 强化学习:评估性反馈 有监督学习:指导性反馈 价值函数
分类目录:《深入理解强化学习》总目录 到目前为止我们讨论的取平均方法对平稳的赌博机问题是合适的,即收益的概率分布不随着时间变化的赌博机问题。但如果赌博机的收益概率是随着时间变化的,该方法就不合适。如前所述,我们经常会遇到非平稳的强化学习问题。在这种情形下,给近期的收益赋予比过去很久的收益更高的权值就是一种合理的处理方式。最流行的方法之一是使用固定步长。比如说,用于更新 n − 1 n-1 n