使用SparkGraphX进行图计算时的编码问题

本文主要是介绍使用SparkGraphX进行图计算时的编码问题，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

使用SparkGraphX进行图计算时的编码问题

在SparkGraphX体系中，要求图网络中的点ID必须为Long类型，不像Python中的networkX工具包支持字符串类型的节点表示，但在现实场景中，有很多情况下，点ID都是字符串类型的，如身份证号、设备号或是埋点采集到的uid等等，都不是单纯能够使用Long类型来表示的。
为解决上述问题，本文将提出两种解决方案，分别是Hash编码以及Row_number编码，接下来本文将详细描述上述两种方案的优缺点以及实现代码（基于Scala实现）。

文章目录

使用SparkGraphX进行图计算时的编码问题
一、Hash编码
一、pandas是什么？
二、Row_number编码
总结

一、Hash编码

与Python自带的Hash编码不同，Java中的hash编码，多次执行，对同一变量得到的Hash编码相同，Python中带有随机因子，多次执行结果不一样。
但Java自带的Hash编码由于使用了截断（得到的编码是Int类型，取值范围相对较小），在大数据量容易出现Hash碰撞问题，但在数据量较小的时候，还是非常好用的并且实现非常简单。
Hash编码

一、pandas是什么？

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

二、Row_number编码

另一种编码方案即为借助SQL中的开窗函数row_number的功能，对所有的点ID都生成一个递增的编码，保留原ID与编码之间的对应关系（一个DataFrame），使用编码ID进行后续的图计算，计算完成后再将编码结果转换回原ID结果。
相比Hash编码，这种编码方案的优点很明显，完全不用担心碰撞问题，能够精准保证原ID与编码ID一一对应，但缺点也很明显，计算效率会降低，尤其在大数据量下执行row_number操作，虽然Spark内部对这类函数做了优化，但是效率仍然是一个大问题，依靠提高并发以及分配更多的资源能一定程度上提高运行效率，但与Hash编码依然是没法比，还是要做权衡，如果数据量不大，对精度要求不高，一般优先使用Hash编码；如果数据量较大或是对精度要求比较高的场景，则优先考虑row_number实现方案。

Row_number编码实现代码

总结

在这里插入图片描述

这篇关于使用SparkGraphX进行图计算时的编码问题的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

使用SparkGraphX进行图计算时的编码问题

使用SparkGraphX进行图计算时的编码问题

文章目录

一、Hash编码

一、pandas是什么？

二、Row_number编码

总结

相关文章

Python在二进制文件中进行数据搜索的实战指南

SQL Server 中的表进行行转列场景示例

C#中checked关键字的使用小结

C#中预处理器指令的使用小结

JAVA Calendar设置上个月时,日期不存在或错误提示问题及解决

Mybatis对MySQL if 函数的不支持问题解读

Nginx错误拦截转发 error_page的问题解决

Mysql中RelayLog中继日志的使用

使用Redis实现会话管理的示例代码

Springboot请求和响应相关注解及使用场景分析