首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
lsh专题
spark Word2Vec+LSH相似文本推荐(scala)
在上一篇博客,我们使用spark CountVectorizer与IDF进行了关键词提取,博客地址: spark CountVectorizer+IDF提取中文关键词(scala) 本篇博客在上一篇博客的基础上,介绍如何根据关键词获取文档的相似度,进行相似文本的推荐。在这里我们需要使用到两个算法:Word2Vec与LSH。 其中Word2Vec即将词转换为词向量,这样词之间的关系就可以向量距
阅读更多...
局部敏感哈希LSH,即matlab代码
转自:http://blog.csdn.net/dudubird90/article/details/50907641 很早就想写一篇关于LSH的文章,后来发现前辈们已经写好了,容我这里再推荐一下该文。 Locality Sensitive Hashing(LSH)之随机投影法 http://www.strongczq.com/2012/04/locality-sensitive
阅读更多...
MinHash-LSH 哈希模糊去重:如何解决医学大模型的大规模数据去重?
MinHash-LSH 最小哈希 + 局部敏感哈希:如何解决医学大模型的大规模数据去重? 大模型的数据问题MinHash-LSH 最小哈希 + 局部敏感哈希:大规模数据集去重优化Jaccard相似度:用于比较样本集之间的相似性降维技术 MinhashLSH – 局部敏感哈希 MinHash-LSH 多个开源数据集去重 大模型的数据问题 问题:训练医学大模型的数据规模真
阅读更多...
R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(二,textreuse介绍)
每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ ——————————————————————————— 上一篇(R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理))讲解了LSH的基本原理,笔者在想这么牛气冲天的方法在R语言中能不能实现得了呢? 于是在网上搜索了一下,真的发
阅读更多...
MinHash-LSH:如何解决医学大模型的大规模数据去重?
MinHash-LSH 最小哈希 + 局部敏感哈希:如何解决医学大模型的大规模数据去重? 大模型的数据问题MinHash-LSH 最小哈希 + 局部敏感哈希:大规模数据集去重优化Jaccard相似度:用于比较样本集之间的相似性降维技术 MinhashLSH – 局部敏感哈希 MinHash-LSH 多个开源数据集去重 大模型的数据问题 问题:训练医学大模型的数据规模真
阅读更多...