章多臂专题

动手学强化学习第2章多臂老虎机

2.1简介多臂老虎机问题可以被看作简化版的强化学习问题。但是其只有动作和奖励没有状态信息，算是简化版的强化学习问题。 2.2问题介绍 2.2.1问题定义在多臂老虎机(MAB)问题中，有一个有K根拉杆的老虎机，拉动每一根拉杆都对应一个关于奖励的概率分布 R R R。我们每次拉动其中一根拉杆，就可以从该拉杆对应的奖励概率分布中获得一个奖励 r r r。我们在各个拉杆的奖励概率分布未知的情