记录两两相比问题

2024-06-15 16:58
文章标签 问题 记录 相比

本文主要是介绍记录两两相比问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2020/07/05 -
刚刚就在思考,如果是利用spark或者hadoop的运算框架,来强行计算大量数据的两两相似度,应该怎么来编写呢?我想了一会,就感觉好像没有办法嵌入到这个模型中,这就比较困难了。

在百度上搜索这部分东西,然后看到了回答[1],感觉应该是有相关的框架;然后普遍的回答都是利用LSH,然后分桶,然后计算小部分的,而不是说全部的。这里这个分桶是什么意思呢?不太理解。


回到上面这个问题,假设我先使用spark来实现,不考虑这个性能问题,就考虑这个东西应该怎么编程实现。
本身这个问题呢,我自己在实现的时候,就是如果不用大数据平台,我就是按照双循环的形式直接来进行比较。

for i in range (n):for j in range(i+1,n):

我是怎么也想不出来这个东西怎么弄,这个时候应该看看我知道什么他具备哪些基础操作,也就是原子操作。本质上,这种操作形式属于两个RDD的交叉工作。在RDD上好像是没有那种按照索引来选定元素的方式。

想不出来,哈哈哈哈哈哈哈,日了狗了。。

这么看来,就感觉就好像mapreduce这种模型并不是适用于这种计算,看来得进行转化了。


我来简单阐述一下我通过查找资料学习到的东西。

首先,直接搜索pair similar spark,首先找到的是一个ppt(这个ppt放在spark的同级目录下),ppt中含有一个All-pairs similarity compution。注意,这里他给出了一个形式化的描述,这一点是我没想到的。


问题的形式化描述

第一点,矩阵,这一点很重要,就是要把问题转化为数学问题。(但我感觉其实还是一个编程的问题,因为这个时候我没有想着去弄什么性能的优化,我只是想得到一个可行的编程方案)
然后就是矩阵的特点,属于行多列少,而且远大于;属于稀疏矩阵;这个矩阵不能存在与单个机器的内存。

我觉得这里面,矩阵的这个概念很重要,我记得当时最开始学习《海量数据挖掘》的时候,就有将矩阵运算转化为mapreduce的过程,这样的话,匹配前面的过程,前面寻找框架的时候,所以说,我还是没有将问题转化好。

mapreduce编程方式

普通的方式就是利用mapreduce的形式,通过矩阵运算来实现这个整体相似度的计算。这个过程的话,其实就跟前面提到的矩阵运算是一致的。这里比较关键的是他的这个转化过程。

然后还有这个文章[2],他其实就是介绍了PPT后面的算法,就是某种逼近相似度?然后将这个东西引入到了spark中。他这里呢,将这个概念更明确了,本身叫做全对相似度比较,(all-pairs similarity),又是也被叫做similarity join问题。

然后按照这个关键词,我找到了文章[3],他是来讲解文本的相似度比较问题的,但是说实话,我没弄懂他是怎么做的。但是,他这里有一个ID,这个应该是很重要的,这个是能够标识的。我觉得,他好像是使用了那种TF-IDF的样子一样,这个再仔细看看。


总结一下

实际上,这篇文章并没有给出具体的方案,但是我有点知道了到底应该怎么办。就是通过矩阵的方式,但是这里需要一个实体的ID来标识。
然后,实际上在业界更多的是进行那种大致相似,以及topk近邻的问题。这些在spark中都有涉及。

[1]Spark 千万级用户相似度计算?
[2]efficient-similarity-algorithm-now-in-spark-twitter.html
[3]similarity-join-spark/

这篇关于记录两两相比问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1064038

相关文章

mybatis和mybatis-plus设置值为null不起作用问题及解决

《mybatis和mybatis-plus设置值为null不起作用问题及解决》Mybatis-Plus的FieldStrategy主要用于控制新增、更新和查询时对空值的处理策略,通过配置不同的策略类型... 目录MyBATis-plusFieldStrategy作用FieldStrategy类型每种策略的作

linux下多个硬盘划分到同一挂载点问题

《linux下多个硬盘划分到同一挂载点问题》在Linux系统中,将多个硬盘划分到同一挂载点需要通过逻辑卷管理(LVM)来实现,首先,需要将物理存储设备(如硬盘分区)创建为物理卷,然后,将这些物理卷组成... 目录linux下多个硬盘划分到同一挂载点需要明确的几个概念硬盘插上默认的是非lvm总结Linux下多

Python Jupyter Notebook导包报错问题及解决

《PythonJupyterNotebook导包报错问题及解决》在conda环境中安装包后,JupyterNotebook导入时出现ImportError,可能是由于包版本不对应或版本太高,解决方... 目录问题解决方法重新安装Jupyter NoteBook 更改Kernel总结问题在conda上安装了

pip install jupyterlab失败的原因问题及探索

《pipinstalljupyterlab失败的原因问题及探索》在学习Yolo模型时,尝试安装JupyterLab但遇到错误,错误提示缺少Rust和Cargo编译环境,因为pywinpty包需要它... 目录背景问题解决方案总结背景最近在学习Yolo模型,然后其中要下载jupyter(有点LSVmu像一个

解决jupyterLab打开后出现Config option `template_path`not recognized by `ExporterCollapsibleHeadings`问题

《解决jupyterLab打开后出现Configoption`template_path`notrecognizedby`ExporterCollapsibleHeadings`问题》在Ju... 目录jupyterLab打开后出现“templandroidate_path”相关问题这是 tensorflo

如何解决Pycharm编辑内容时有光标的问题

《如何解决Pycharm编辑内容时有光标的问题》文章介绍了如何在PyCharm中配置VimEmulator插件,包括检查插件是否已安装、下载插件以及安装IdeaVim插件的步骤... 目录Pycharm编辑内容时有光标1.如果Vim Emulator前面有对勾2.www.chinasem.cn如果tools工

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

Java多线程父线程向子线程传值问题及解决

《Java多线程父线程向子线程传值问题及解决》文章总结了5种解决父子之间数据传递困扰的解决方案,包括ThreadLocal+TaskDecorator、UserUtils、CustomTaskDeco... 目录1 背景2 ThreadLocal+TaskDecorator3 RequestContextH

关于Spring @Bean 相同加载顺序不同结果不同的问题记录

《关于Spring@Bean相同加载顺序不同结果不同的问题记录》本文主要探讨了在Spring5.1.3.RELEASE版本下,当有两个全注解类定义相同类型的Bean时,由于加载顺序不同,最终生成的... 目录问题说明测试输出1测试输出2@Bean注解的BeanDefiChina编程nition加入时机总结问题说明

关于最长递增子序列问题概述

《关于最长递增子序列问题概述》本文详细介绍了最长递增子序列问题的定义及两种优化解法:贪心+二分查找和动态规划+状态压缩,贪心+二分查找时间复杂度为O(nlogn),通过维护一个有序的“尾巴”数组来高效... 一、最长递增子序列问题概述1. 问题定义给定一个整数序列,例如 nums = [10, 9, 2