bandits专题

多臂老虎机 “Multi-armed Bandits”

将强化学习与机器学习、深度学习区分开的最重要的特征为：它通过训练中信息来评估所采取的动作，而不是给出正确的动作进行指导，这极大地促进了寻找更优动作的需求。 1、多臂老虎机（Multi-armed Bandits）问题赌场的老虎机有一个绰号叫单臂强盗（single-armed bandit），因为它即使只有一只胳膊，也会把你的钱拿走。而一排老虎机就引申出多臂强盗（多臂老虎机）。多臂老虎机

（IJCAI-17）Transfer learning in multi-armed bandits: A causal approach

Multi-Source Domain Adaptation for Text Classification via DistanceNet-Bandits论文学习

摘要目标域上的学习算法的域适应性能是其源域的误差和两个域的数据分布的散度度量。我们在NLP任务的上下文任务中研究了各种基于距离的方法，根据样本估计来描述域之间的差异。我们首先进行了分析实验来展示哪种距离度量方法可以最好地区分样本来自相同领域还是不同领域，和实际结果相关。接下来，我们研究了一种叫做DistanceNet的模型，这个模型使用这些距离度量的方法，或者将这些度量方法混合，作为一种额外的损