推荐系统公平性之校准化推荐--calibrated recommendations

本文主要是介绍推荐系统公平性之校准化推荐--calibrated recommendations，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

主要参考论文：论文1《Calibrated Recommendations》、论文2《Crank up the volume: preference bias amplification in collaborative recommendation》

为什么会出现偏好放大现象

从类别不平衡的分类问题角度来看。在类别不平衡的分类问题中，如果我们没有其他可用的信息，那么将结果全部预测为最多的那一类就可以得到最高的准确率。对于推荐来说，继续用上面的例子，如果我们没有别的可用信息，只知道佩琪购买的物品中75%都是裙子，那么我们只推荐裙子给她就可以得到最好的准确率。
从模型训练的角度来看。以BPR训练为例，在训练过程中为每个用户采样正样本时，数量占比多的类别被采样到的概率更大，所以训练时这种偏差就刻入模型中了，但这本不是错，相反这恰恰是个性化推荐所需要的，但错在往往得到的推荐结果会过分放大这种偏差，而没有维持住原有的比例。

校准化推荐（calibrated recommendations）

由于推荐系统存在的偏好放大现象，我们需要让推荐系统的结果更加符合用户的原始偏好，校准化推荐应运而生。用论文1中的例子：假设在某个用户的观影记录中，有70部爱情类电影和30部动作类电影，那么在推荐列表中的爱情类电影应该占70%，同时动作类电影应该占30%，这样就与用户的偏好相符。我们把推荐列表的这种特性称为校准（calibration）。

规范化描述，校准推荐的目标是让推荐列表按照合适的比例反映用户的兴趣偏好。

校准（calibration）与多样性（diversity）

典型的多样性的优化目标是最小化推荐列表中各物品间的相似度，用上面的例子来说，一个多样性的推荐列表只需要保证同时有爱情类电影和动作类电影就好了，当然如果有其他类别的电影，也应该加入到列表中，而且最好每种类别数量相等。

但calibration强调的是推荐列表中的各类别的电影要满足一定的比例，即尽可能地吻合用户的兴趣偏好。但却不具备多样性那样可以发现用户潜在兴趣类别的性质。

如何度量校准（calibration metrics）

为了评估我们的推荐结果和用户原始的兴趣偏好间的差异，我们可以假设用户历史记录中类别的分布为，推荐列表中类别分布为，那么可以计算两个分布间的f-散度（f-divergence）来量化它们间差异，值越小说明分布越接近，calibration就做得越好。
如上面与多样性的对比时所述，如果我们想要让推荐结果的类型不那么死板，希望稍微地引入一些其他类别，以发现用户的潜在兴趣，我们可以让没出现在用户历史中的类别所对应的不为零。
我更偏爱论文2采用的指标：bias disparity。其同样是通过计算输入数据中的偏好与系统输出中的偏好间的差异（公式具体见论文2）。它既可以用来计算推荐系统对所有用户的偏好放大情况，也可以分别推荐系统对计算不同组（如男性和女性）的用户的偏好放大情况，且计算简便。