SIGIR 2019 | Teach Machine How to Read : Reading Behavior Inspired Relevance Estimation

本文主要是介绍SIGIR 2019 | Teach Machine How to Read : Reading Behavior Inspired Relevance Estimation，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在本论文中，作者先总结了受实际用户行为模式而来的阅读启发法（reading heuristic），这些启发可以被分为显式和隐式。通过重新审视现有的检索的模型及其变形，论文作者发现，它们仅满足了一部分的阅读启发法。通过消融学习，作者指出每个阅读启发对检索性能都有积极的影响。同时整合了全部有效的阅读启发法进去了检索模型，并将它命名为Reading Inspired Model(RIM)。实验结果表明RIM的性能超过了现在大多数的模型，说明了阅读启发法的有效性。

论文地址:
http://www.thuir.org/group/~YQLiu/publications/SIGIR2019Li.pdf

引言

在判断相关性的阅读行为和普通的阅读行为是不一致的。当需要获得某些知识去满足用户的信息需求时，他们有许多特别的阅读模式。一般来说，有这样的三种模式，1）大部分的注意力是在文章的开头的，而且当越往下阅读时，这些注意力会逐步递减。2）阅读的注意力在一篇文档里面是有选择的，而不是均匀分布在整个文档。3）一旦用户有了一个可信的相关性判断，他们会通过跳过某些片段甚至终止阅读来减少阅读时间。
检索模型是为了评估query和众多documents之间的相关度，对用户行为的理解可以在相关度评判和检索模型设计中提供有价值的信息。然而，现在的检索模型主要集中在query和document的匹配程度，而忽略了从用户阅读行为中得到的启发。
该论文的主要贡献有三个方面：
1）详细研究了实际用户在做出相关性判断时的阅读模式，并提出了六种的阅读启发法。
2）检验了这六种阅读启发法的有效性，并根据有效的阅读启发法结合强化学习框架提出了一个新的阅读启发的检索模型（RIM）
3）作者所提出的模型在一个大规模数据集和两个NTCIR数据上面的效果都超越现有大多数的模型。

阅读启发的模型

对于隐式的阅读启发，作者在模型中加入特殊的设计。例如，问题中心指引这个启发指出了怎么去对问题和文章之间语义匹配进行建模。对于显式的阅读启发，我们将他们建模为马尔科夫决策过程，而这个过程是通过强化学习来进行优化。RIM的流程图如图3所示。
图3. RIM流程图

Local Matching Layer

该层的目的主要是通过问题中心指引去捕捉query和document之间的语义匹配。主要是构建两个矩阵 $M^{cos}$ 和 $M^{xor}$ ，公式如下所示：

其中的， $w_i$ 代表query里面的第i个单词， $v_j$ 代表有个T个句子的document d里面某个句子里面的第j个单词。对于矩阵 $M^{cos}$ 和 $M^{xor}$ 里面的每个元素 $M_{ij}$ ，我们可以延展其为三维矩阵。公式如下所示：

其中 $W_c$ 为在训练中学习的压缩矩阵。最终的句子embedding输出为串联两个交互矩阵。如下所示：

隐式启发模型

对于顺序阅读，可以通过selector选择需要阅读的句子，并将这些挑选出来的句子顺序输入到一个RNN模型里面。RNN模型包含了上下文有关阅读这个隐式阅读启发。将RNN模型换为一个简单的非线性模型即可取消上下文有关的阅读启发。RNN模型的计算公式如下所示：

其中的 $T ’$ 是选择出来的句子的个数，小于 $T$ 。
对于垂直递减注意力，可以对用户真实的注意力分布使用Gamma分布进行拟合。对于每个位置上面的注意力，计算如下所示：

其中的 $p$ 是一篇文档里面的垂直位置， $l$ , $k$ , $θ$ 是位置参数，分别为1.36、4.37和1.36。这个衰减因子加入到RNN模型的隐状态的输出。计算公式为：

获得 $T^’$ 个状态输出后，将这些状态通过一个全连接层，获得一个相关度的分数，选择前K个分数比较高的句子。

显式启发建模

选择性注意力和早停止是两种显式阅读启发，可以通过马尔科夫决策过程进行模拟。在图3中，真体Selector控制着我们的模型需要阅读哪些句子，或者跳过哪些句子。另外一个真体Finish Net控制着是否提前终止阅读，和评估该文章的相关度。这两个真体的决策策略公式如下所示：

$σ$ 是一个sigmoid函数。在训练阶段，会采用上面的公式进行采样。在测试阶段，会使用最大的概率值的动作进行预测。
该模型采用了延迟奖励的方式去引导策略学习。而且针对三种的结果形式，使用了三种不同的奖励表达。如下所示：

使用了REINFORCE算法和策略梯度方法去最大化预期的奖励。该策略的梯度如下所示：

实验

在该实验小节中，主要是为了验证所提出的六种阅读启发有没有效果，还有整合了六种阅读启发的RIM相对其他模型提升的效果，。
主要使用的数据集如图4所示。其中的click代表点击模型给出来的点击相关度标签，而Mannual指的是人类标注的标签。
图4.两种数据集
BaseReader是对RIM模型去除了显式阅读启发和垂直递减注意力后得到的模型，和HiNT在顺序阅读里面得到的结果如图5所示。可以发现顺序阅读可以大幅度提高排序的性能。
图5. HiNT和BaseReader在不同顺序下面的ranking性能表现
在图6中，作者指出，垂直递减注意力对模型的性能没有改变。
图6. HiNT和BaseReader在是否添加垂直递减注意力时的ranking性能表现
在图7中，作者指出对于点击相关的标签数据集，上下文相关的阅读启发是有提升效果的，而对于人类标注的标签则没有提升效果。
图7. HiNT和BaseReader在是否添加上下文相关阅读时的ranking性能表现
对于显式阅读启发，RIM-select是在BaseReader的基础上加上selector，而RIM-stop是在BaseReader的基础上加上了Finish Net。图8表明了两者在检索模型上面均有明显的提升。
图8. BaseReader与分别添加两种不同的阅读启发时的ranking性能表现
总的来说，在这六种阅读启发中，只有垂直递减注意力是没有起效果的。因此，在作者把它排除到了整合后的RIM之外。整合了五种阅读启发的RIM和其他检索模型的ranking性能对比如图9所示。
图9.RIM和其他检索模型的ranking性能对比
从图9可以看出，RIM在大多数的指标上面超过了其他的基础模型。