nlp07专题

NLP07:基于潜在隐语义索引的文本相似度计算

1.潜在隐语义索引(LSI)概述 潜在语义索引(Latent Semantic Indexing,以下简称LSI),有的文章也叫Latent Semantic Analysis(LSA)。其实是一个东西,后面我们统称LSI,它是一种简单实用的主题模型。LSI是基于奇异值分解(SVD)的方法来得到文本的主题的。 这里我们简要回顾下SVD:对于一个 m × n m \times n m×n的矩阵