本文主要是介绍《Coupled Term-Term Relation Analysis for Document Clustering》文献笔记(上),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
相关工作
这部分主要阐述了两点,一是介绍Document Clustering领域的背景知识,其实质内容只是介绍了Document Representation——Document Clustering领域的一小部分,以词包表示法为例,给出了文本表示的数学模型;二是相关工作,列举了研究词之间关系强度计算方法,以广义向量空间模型(BVSM)为分析重点。
文本表示
[补充知识]文本表示的基本原理,在自然语言处理中,文本通常被抽象成由<特征项—特征值>构成的特征向量,所以分两方面:特征项抽取,特征值计算。特征项的抽取通常来自对文本内部的分词,如早期的tf-idf向量空间模型(也是最为经典的模型,该模型之于文本表示就如同物理模型中的自由落体运动之于匀加速直线运动)。在近期研究中,从外部如WordNet字典、维基百科、概念本体等选取特征项的方法被证明可以更好的揭示文本的语义关系,如潜在语义分析、ESA等;而对于特征值的计算和优化方面,研究和模型较多,计算的方法主要是基于统计学,并从各个层面如词的贡献度、词条联系强调、共词分析、文献共引等去挖掘语义关系,并将这种语义关系反映到特征值的加权计算中。——(文本表示的研究可以有一个综述……)。
以词包法(
这篇关于《Coupled Term-Term Relation Analysis for Document Clustering》文献笔记(上)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!