首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
minhash专题
【Python】使用Python和MinHash计算中文文本相似度
我的心情总是失落 我懂女孩子是矜持的 你的耳机里到底听的是什么 有没有我熟悉的歌 我想发寻你的传单 可是我没有你的照片 只好写初识游泳馆 大厅的里面 我们不见不散 🎵 赵雷《十九岁》 在处理中文文本数据时,如何快速有效地计算两段文本的相似度成为了一个常见的挑战。MinHash算法提供了一种高效的解决方案,能够在大规模数据集上估计文本之间的相似度
阅读更多...
海量数据相似性度量与聚类: LHS-MinHash
海量数据相似性度量与聚类: LHS-MinHash 写本文的原因是近期在涉猎用户画像相关的无监督学习理论,刚好看到一篇运用LHS-MinHash做用户聚类的文章,却讲得过于笼统,对我这样的萌新(菜鸡)不太友好。于是我去搜索了关于LHS-MinHash和simhash的相关博客,有的写得非常不负责,甚至误导了我,有的写的比较详细,但部分细节总感觉有点断片,好像漏掉了什么。同时,这些博客的内容比
阅读更多...
Mahout MinHash代码阅读理解
MinHash的介绍请参看http://rdc.taobao.com/team/jm/archives/2434 初始化 Configuration conf = getConf();conf.setInt(MinhashOptionCreator.MIN_CLUSTER_SIZE, minClusterSize);conf.setInt(MinhashOptionCreator.
阅读更多...
MinHash-LSH 哈希模糊去重:如何解决医学大模型的大规模数据去重?
MinHash-LSH 最小哈希 + 局部敏感哈希:如何解决医学大模型的大规模数据去重? 大模型的数据问题MinHash-LSH 最小哈希 + 局部敏感哈希:大规模数据集去重优化Jaccard相似度:用于比较样本集之间的相似性降维技术 MinhashLSH – 局部敏感哈希 MinHash-LSH 多个开源数据集去重 大模型的数据问题 问题:训练医学大模型的数据规模真
阅读更多...
MinHash-LSH:如何解决医学大模型的大规模数据去重?
MinHash-LSH 最小哈希 + 局部敏感哈希:如何解决医学大模型的大规模数据去重? 大模型的数据问题MinHash-LSH 最小哈希 + 局部敏感哈希:大规模数据集去重优化Jaccard相似度:用于比较样本集之间的相似性降维技术 MinhashLSH – 局部敏感哈希 MinHash-LSH 多个开源数据集去重 大模型的数据问题 问题:训练医学大模型的数据规模真
阅读更多...