本文主要是介绍机器学习第四篇----MAB(多臂老虎机)一次失败的尝试,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
最近在搞推荐,选型了了MAB,但是最终尝试失败
首先介绍一下,什么是MAB?
一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,但是每个老虎机吐钱的概率可不一样,他不知道每个老虎机吐钱的概率分布是什么,那么每次该选择哪个老虎机可以做到最大化收益呢?这就是多臂赌博机问题(Multi-armed bandit problem, K-armed bandit problem, MAB)。
推荐系统和MAB:
推荐系统中一个难点之一就是冷启动,冷启动的场景:如何给新用户做个性化推荐。因为没有历史数据,无法预测出用户的喜好。这种场景是每个网站或者APP启动的时候遇到的问题。
这种问题就很适合用MAB算法来解决:
MAB算法中有几个关键元素:臂、回报、环境
臂:每次选择的候选项,如老虎机的摇臂
回报:就是选择一个臂之后得到的奖励,好比老虎机吐出来的金币
环境:就是决定每个臂不同的那些因素,统称为环境
对应到推荐系统中
臂:每次推荐要选择的候选池,可能是具体物品,可能是推荐策略,也可能是物品类别
回报:用户的回馈,喜欢则是正面回报,没有买账就是负面回报或零回报
环境:推荐系统当前面临的这个用户就是未知的环境
但是我们针对MAB的尝试失败了,总结了一下原因:
1.MAB属于探索的过程,在这期间推荐效果可能好,也可能差很多,这是算法本身决定的。
2.MAB的试用场景,应该是高频业务,低频的业务不适合
3.业务本身的波动要小,如果业务本身的波动很大,很难试用AMB优化出很好的效果。
4.回报率在我使用的业务中很难计算
这篇关于机器学习第四篇----MAB(多臂老虎机)一次失败的尝试的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!