TextRank：Gensim使用的文本摘要算法

本文主要是介绍TextRank：Gensim使用的文本摘要算法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Gensim是Python的一个无监督主题模型与自然语言处理的开源库，它有许多高效易用的自然语言处理函数。其中有一个文本摘要函数summarize，可以从大量的文本中提取重要的信息。下面简要介绍一下Gensim中的summarize函数的算法。

文章目录

- 文本摘要与TextRank
- PageRank
- TextRank
- Gensim中的TextRank
- 具体摘要算法

文本摘要与TextRank

文本摘要主要分为两种类型，抽取式（Extraction）和摘要式（Abstraction）。其中抽取式是从原文中抽取关键词语、句子或段落，再排列起来形成摘要；摘要式则是通过对原文进行语义分析，再使用自然语言生成技术生成摘要。抽取式摘要不需要大量语料进行训练，模型简洁高效。在抽取式摘要中，以句子为单位的抽取式摘要方法成为在内容的丰富性及语法的正确性上权衡之后获得很多很多模型青睐的算法，本文介绍的TextRank也是其中之一。

TextRank是基于图模型的一种抽取式摘要方法，TextRank不需要很深的语言学知识，也不需要特定领域或语言上的标签，具有很强的泛用性。这种特性使得TextRank在结构性强的文本中有不错的效果，比如新闻稿，会议记录等。TextRank的思路与搜索引擎中常用的PageRank相似，所以先简单介绍一下PageRank。

PageRank

PageRank是一个计算网页的重要程度的算法。借鉴学术界通过论文间的引用来评判论文重要程度的思想，PageRank使用了网页之间的链接来判断网页的重要程度。PageRank有两个重要的假设：

数量假设：一个网页被其他网页链接到的次数越多，则这个网页越重要。
质量假设：一个网页越重要，被其链接到的网页就越重要。

网页之间的链接关系用一个图 $G (V, E)$ 来表示最为直接，其中 $V$ 是顶点， $E$ 是边。在PageRank的模型中，每个网页是图 $G$ 中的一个顶点 $v_i$ ，若 $v_i$ 有链接指向到 $v_j$ ，则 $v_i$ 与 $v_j$ 之间存在一条边。衡量网页 $v_i$ 的重要性的 $P R$ 值定义为：

$PR(v_i) = (1 - d) + d \sum_{v_j \in In(v_i)} \frac{1}{|Out(v_j)|}PR(v_j),\ i=1, 2, ..., n$

其中 $In(v_i)$ 是指链接到网页 $v_i$ 的网页的集合， $Out(v_j)$ 是网页 $v_j$ 链接出去的网页的集合， $d$ 是阻尼系数（damping factor），一般取值为 $0.85$ ， $n$ 是网页的总数。阻尼系数可以这么理解：用户到达网页 $v_i$ 后有概率 $d$ 会在网页上的链接中等概率地选择一个进行跳转，每个链接被选中的概率为 $\frac{1}{|Out(v_i)|}$ ，还有概率