Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model-论文阅读笔记

本文主要是介绍Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model-论文阅读笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章ACL2019 - Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model

Code https://github.com/lancopku/Graph-to-seq-comment-generation

Data

论文研究内容

根据新闻title和文章自动评论Comments

摘要：自动文章评论有助于鼓励用户参与和在线新闻平台上的互动。然而，对于传统的基于encoder-decoder的模型来说，新闻文档通常太长，这往往会导致一般性和不相关的评论。在本文中，我们提出使用一个Graph-to-Sequence的模型来生成评论，该模型将输入的新闻建模为一个主题交互图。通过将文章组织成图结构，我们的模型可以更好地理解文章的内部结构和主题之间的联系，这使得它能够更好地理解故事。我们从中国流行的在线新闻平台Tencent Kuaibao上收集并发布了一个大规模的新闻评论语料库。广泛的实验结果表明，与几个强大的baseline模型相比，我们的模型可以产生更多的连贯性和信息丰富性的评论。

Motivation：

a.新闻文章可能很长、标题短，seq2seq无法获取足够的信息；b.链接广告形式的新闻内容不够生成连贯的评论。c.用户关注的topic不同，生成的comments侧重也不同。

基于此，文章提出用graph-to-sequence model 生成评论信息。步骤：1. 用文章生成 topic interaction graph---图的顶点：topic words，边-semantic relation；2. 用GNN建模，3种metrics 测试；

Related works

GNN做文本生成

具体实现

在本节中，我们将介绍所提出的图形序列模型（如图1所示）。我们的模型遵循编码器 - 解码器框架。编码器必须将作为交互图表呈现的文章文本编码成一组隐藏向量，解码器基于该隐藏向量生成评论序列。

1.Graph Construction

对于文章D，用textRank 算法生成keywords（k），包含keywords的句子(s)作为边，一个句子有多个keywords，建立两个keywords之间的联系；不包含keywords的句子顶点(v)标记为Empty，文章title的顶点特殊标记；边的权重值取决于重复句子的数量或者两个顶点的tf-idf值

2. Vertex Encoder

word embedding and positional embedding