本文主要是介绍GRN: Generative Rerank Network for Context-wise Recommendation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
总结
generator: GRU,policy gradient优化,self reward + differential reward,从粗排到精排
evaluator: bi-lstm+self-attention,交叉熵损失,对final list做rank
细节
generator
把gru当作一个policy,reward有2部分:self reward + differential reward。
self reward
r s e l f ( x o t ∣ u , O ) = E ( x o t ∣ u , O ; Θ E ) r^{self}(x_o^t | u, O) = E(x_o^t | u, O; \Theta^E) rself(xot∣u,O)=E(xot∣u,O;ΘE)
differential reward,虽然 x o t x_o^t xot在当前list中不合适,但是如果 x o t x_o^t xot可以促进其他item被选,那 x o t x_o^t xot也是一个好item
r d i f f ( x o t ∣ u , O ) = ∑ x o i ∈ O E ( x o t ∣ u , O ; Θ E ) − ∑ x o i ∈ O − E ( x o t ∣ u , O − ; Θ E ) r^{diff}(x_o^t | u, O) = \sum_{x^i_o \in O}E(x_o^t | u, O; \Theta^E) - \sum_{x^i_o \in O^-}E(x_o^t | u, O^-; \Theta^E) rdiff(xot∣u,O)=xoi∈O∑E(xot∣u,O;ΘE)−xoi∈O−∑E(xot∣u,O−;ΘE)
其中:
- O O O代表当前policy generate出的list
- O − O^- O−代表不包含 x o t x_o^t xot的list
evaluator
self-attention对multual influence建模
实验
数据集
公开数据集:https://tianchi.aliyun.com/dataset/dataDetail?dataId=56
私人数据集:taobao
评估指标: auc, gauc, ndcg@5
baseline: dnn, deepFM, DLCM, PRM
在线a/b test: pv, ipv(item pv)
这篇关于GRN: Generative Rerank Network for Context-wise Recommendation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!