DeepMind改进的Google Play Store推荐系统要点解析

本文主要是介绍DeepMind改进的Google Play Store推荐系统要点解析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Michelle Gong, Anton Zhernov

编译：ronghuaiyang

导读

DeepMind和Google Play合作，推动了 Play Store 的发现系统的重大改进，为用户提供更加个性化和直观的 Play Store 体验。

在过去的几年中，我们把 DeepMind 的技术应用到了谷歌产品和基础设施中，取得了巨大的成功，我们使用数据中心冷却技术减少了大量的能耗，并扩展了 Android 的电池性能。我们很高兴能与大家分享我们接下来的几个月里的工作。

我们与 Google Play 商店的合作

我们知道，当用户拥有他们喜爱的应用程序和游戏时，他们就能最大限度地利用他们的手机，发现新的最爱是一件令人兴奋的事情。在与 Google Play 的合作中，我们的团队领导了与谷歌的合作，推动了 Play Store 的发现系统的重大改进，为用户提供更加个性化和直观的 Play Store 体验。

每个月，有数十亿的用户来 Google Play Store 为他们的移动设备下载应用程序，Play Store 支持了世界上最大的推荐系统之一。一些人在寻找特定的应用程序，比如 Snapchat，而另一些人在浏览商店，想看看有什么新东西和有趣的东西。Google Play 的发现团队努力帮助用户发现最相关的应用程序和游戏，为他们提供有用的应用程序推荐。为了提供更丰富、个性化的体验，应用程序会根据用户过去的偏好来推荐。然而，这需要非常细致的进行区分 — 既要理解应用程序的功能，也要了解它与特定用户的相关性。例如，对于一个狂热的科幻游戏玩家来说，类似的游戏推荐可能会很有趣，但如果用户安装了一个旅游应用，推荐一个翻译应用可能比另外五个旅游应用更相关。这些用户首选项的收集和使用由谷歌的隐私政策管理。

我们开始与 Play store 合作，帮助开发和改进系统，以确定应用程序与用户的相关性。在这篇文章中，我们将探索一些我们为实现这一目标而开发的尖端机器学习技术。今天，Google Play 的推荐系统包含三个主要模型：一个候选生成器、一个重排序机和一个针对多个目标进行优化的模型。候选生成器是一个深度检索模型，可以分析 100 多万个应用程序并检索最合适的应用程序。对于每个应用程序，重排序机(即用户偏好模型)会从多个维度预测用户的偏好。接下来，这些预测是多目标优化模型的输入，该模型的解决方案为用户提供最合适的候选方案。

在现实世界的约束下应用机器学习

改善 Google Play 的推荐系统学习用户的喜好，我们的第一种方法是使用一个 LSTM(长短期记忆)模型，这是一个在现实场景中表现很好的递归神经网络，因为它具有由于强大的更新和反向传播动能力。虽然 LSTM 带来了显著的精度提高，但它也引入了服务延迟，因为 LSTM 在处理长序列时可能在计算上非常昂贵。为了解决这个问题，我们将 LSTM 替换为一个 Transformer 模型，它可以很好地进行序列到序列的预测，并且之前在自然语言处理方面取得了很好的结果，因为它能够比其他常用的模型捕获单词之间更长的依赖关系。该 Transformer 在提高模型性能的同时，也增加了训练成本。我们的第三个也是最后一个解决方案是实现一个有效的加法注意力模型，该模型适用于序列特征的任何组合，同时具有较低的计算成本。

候选生成器去偏差

我们的模型(称为候选生成器)根据用户从 Play store 中安装的以前的应用程序来判断他们更可能安装哪些应用程序。然而，这可能会引入推荐偏差问题。例如，如果 app A 在 Play store 中显示的次数是 app B 的 10 倍，那么用户就更有可能安装它，因此我们的模型也更有可能推荐它。因此，该模型学会了一种偏差，即越是频繁显示的 app，安装的越多。

为了帮助纠正这种偏差，我们在模型中引入了重要性加权。这个重要性权重是基于每一个独立应用的打开—安装率与整个 Play store 的打开—安装率的中间值。安装率低于中值的应用程序的重要性权重将小于 1。然而，如果安装率高于中位数，即使是安装频率较低的“小众”应用程序也可能具有较高的重要性。通过重要性加权，我们的候选生成器可以根据安装率降低或提高应用程序的权重，从而缓解推荐偏差问题。

重排序推荐的改进

推荐系统通常为用户提供一系列的可能性，并以最佳或最相关的选项的顺序显示在顶部。但我们如何确保最相关的应用程序出现在列表的顶部，这样用户就不必滚动页面，或可能错过最佳选项？许多推荐系统将排名问题视为一个二元分类问题，其中训练数据要么被标记为正类，要么被标记为负类，排名者仅从这个二元标签就学会了预测概率。然而，这种“pointwise”模型，一次只对一项进行排名，不能捕捉到应用程序相和其他应用程序相关性的上下文。为了提供更好的用户体验，排名者可以根据其他候选应用程序的上下文来预测呈现项的相对顺序。

我们的解决方案，reranker 模型，学习了同时显示给用户的一对应用程序的相关重要性。我们的 reranker 模型基于一个核心观点:如果用户在商店中同时看到两个应用程序，那么用户选择安装的应用程序比他们没有安装的应用程序更贴近用户。然后，我们可以为每一对应用程序分配一个正样本或负样本的标签，而该模型试图最小化排名中的逆序数量，从而提高应用程序的相对排名。这种“pairwise”模型在实践中比 pointwise 模型更有效，因为预测相对顺序比预测类标签或安装概率更接近于排序的本质。

优化多个目标

许多推荐系统必须同时针对多个目标进行优化，比如相关性、受欢迎程度或个人偏好。我们将多目标优化问题表述为一个约束优化问题：总体目标是最大化主要度量的期望值，受次要度量期望值的约束。在在线服务期间，目标可能会根据用户的需求而改变。例如，一个用户以前对住房搜索应用程序感兴趣，现在可能已经找到了一个新的公寓，所以现在对家居装饰应用程序感兴趣。所以我们致力于一个动态的解决方案。

我们不是离线解决问题，然后把固定的模型部署上线，而是根据服务期间目标的实际价值，根据每个请求在线解决问题。我们将约束定义为相对约束，这意味着我们希望将次要目标提高一个百分比，而不是一个绝对值。这样，次要目标的任何变化都不会影响我们的求解。

我们开发的算法可以用来发现许多度量之间的权衡。在权衡曲线上找到合适的点，我们的算法可以显著提高次要度量，而对主要度量的影响很小。