排表专题

算法:倒排表/倒排索引(Inverted index)

搜索引擎最核心的技术, 倒排索引技术,倒排索引可能需要分成几篇文章才说得完,我们先会说说倒排索引的技术原理,然后会讲讲怎么用一些数据结构和算法来实现一个倒排索引,然后会说一个 索引器怎么通过 文档来生成一个倒排索引。 什么是倒排索引呢?索引我们都知道,就是为了能更快的找到文档的数据结构,比如给文档编个号,那么通过这个号就可以很快的找到某一篇文档,而倒排索引不是根据文档编号,而是通过文档中的某些个

NLP学习04_词向量、句子向量、倒排表

词向量 欧式距离和余弦相似度的方法是无法表达单词之间的语义相似度 归为one-hot方式无法表达单词间的语义相似度 one-hot的表达方式,如果词典大小是指数级的,那么一个句子的向量表示中,只有少数位置是1,其他位置都是0 这就导致了向量稀疏 归结one-hot缺点:1、无法表达语义相似度,2、稀疏问题 词向量表示法 分布式表示法 每个单词表示的向量维度不再是等于词典长度,而是自定义的

NLP-倒排表

目录 1.原理 2.实现 1.原理 比如一个问答系统,输入一个问题之后,我们需要去匹配所有的问题,计算相似度,这个时间复杂度是O(N),但如果问题库里面的问题量非常大,那么耗费的时间就非常长。 我们可以通过对问题进行索引的方式,快速定位到相关问题。 ①词典中的每一个词,都做为一个词典索引:{"basketball" : [], "football": []} ②每一个词,