本文主要是介绍DEAR: Deep Reinforcement Learning for Online Advertising Impression in Recommender Systems,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 总结
- 细节
- 实验
总结
dqn,在线学习
细节
由DQN判断是否应该在推荐序列中加入广告,并且给出最佳广告、广告出现的最佳位置
states: 用户的推荐历史和广告历史,contexutal info等
action: a t = ( a t a d , a t l o c ) a_t = (a_t^{ad}, a_t^{loc}) at=(atad,atloc)
reward: r t ( s t , a t ) = r t a d + α r t e x r_t(s_t, a_t)=r_t^{ad}+\alpha r_t^{ex} rt(st,at)=rtad+αrtex,其中 r t e x = { 1 , c o n t i n u e − 1 , l e a v e r_t^{ex} = \begin{aligned}\begin{cases} 1, &continue \\ -1, &leave \end{cases}\end{aligned} rtex={1,−1,continueleave
gru对用户历史信息编码,用最后一层hidden output作为user emb
记user的推荐emb为 p t r e c p^{rec}_t ptrec,user的广告emb为 p t a d p^{ad}_t ptad,现在的推荐列表 r e c t = t a n h ( W r e c [ r e c 1 ; … ; r e c L ] + b r e c ) rec_t = tanh(W_{rec}[rec_1; \dots; rec_L] + b_{rec}) rect=tanh(Wrec[rec1;…;recL]+brec),上下文信息 c t c_t ct,则states为:
s t = [ p t a d ; p t r e c ; c t ; r e c t ] s_t = [p^{ad}_t; p^{rec}_t; c_t; rec_t] st=[ptad;ptrec;ct;rect]
从 s t s_t st到 s t + 1 s_{t+1} st+1,把当前选择的内容加入到过去的列表中,重新计算一个emb
实验
数据集:无公开数据集
baseline: wide&deep, dfm, gru
评估指标: reward
这篇关于DEAR: Deep Reinforcement Learning for Online Advertising Impression in Recommender Systems的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!