sparkgraphx专题

使用SparkGraphX进行图计算时的编码问题

使用SparkGraphX进行图计算时的编码问题 在SparkGraphX体系中,要求图网络中的点ID必须为Long类型,不像Python中的networkX工具包支持字符串类型的节点表示,但在现实场景中,有很多情况下,点ID都是字符串类型的,如身份证号、设备号或是埋点采集到的uid等等,都不是单纯能够使用Long类型来表示的。 为解决上述问题,本文将提出两种解决方案,分别是Hash编码以及Ro

基于SparkGraphX实现大数据量的Louvain算法(附Scala代码)

基于SparkGraphX实现大数据量的Louvain算法(附Scala代码) 之前针对社群发现类算法有写过一篇用Python实现的面向小数据集的文章,其中也有涉及到Louvain算法的原理,今天这篇将主要专注于借助SparkGraphX实现Louvain算法的实现方案,该方案将更适用于大数据量,并且扩展性较好,集群资源给够就可以支持更大的数据量。不过需要注意的是,图计算框架SparkGraph

SparkGraphX 基础解析(五)

1、Spark GraphX概述 1.1什么是Spark GraphX Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。 那么什么是图,都计算些什么?众所周知社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博和微信等,数据中出现网状结构关系都需要图计算。 GraphX是