最近课题需要,整理一下文档相似性的一些研究,主要是参考知乎上面的回答和52nlp的相关文章。以备后期综述使用。具体还需要好好细读链接。 主要思路 01/one hot representation,BOW+tf-idf+LSI/LDA体系.docsim方法:gensim包,使用corpora.Dictionary(text),把所有单词取一个set(),并对set中每一个单词分配一个id号的m
实在不能理解为啥搜狗输入法每次我打biji的时候总是给我跳出荸荠(qi) (づ ̄ 3 ̄)づ,还有biaoshi,总是出标识(zhi)..╭(╯^╰)╮哼 基于距离的相似度计算 prefs[person][item] 数据集格式如下: example: aaaa={‘WANG’:{‘Lady in the Water’:3,’HAHA story’:2},…} from math i