谈多臂专题

从Thompson Sampling到增强学习, 再谈多臂老虎机问题

老虎机是赌场里最常见的一个设备，一家赌场里有那么多机器，每次摇动都可能后悔或者获得一定额度的奖励，你通过选择不同的老虎机臂最大化自己的利益。这个问题看似非常简单，让很多人都忘了他其实是一个reinforcement learning的问题。问题描述 (Bernoulli Bandit)假设我们有一个K臂老虎机，每一个臂(action)的回报率(reward_i)都是固定的，但是agent