简单模拟社交网络分析

2024-03-28 07:10

本文主要是介绍简单模拟社交网络分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

之前的文章中介绍了社交网络常用的一些分析指标,这里Tatsumi将自己编写Scrapy爬虫获取简书用户的关注与被关注行为信息,模拟一个真实的小社交网络群体。

打开简书的网站,随便找到一个用户然后点击关注或粉丝,便可获取该用户对应的粉丝和它关注的用户ID。

由于简书里这种用户ID信息列表是使用Ajax请求的方式加载的,这里Tatsumi通过Post请求的方式向存放该Json数据的服务器发送请求来获取用户ID信息。(当然这里也可以在Scrapy中使用selenium来模拟滚动下拉条的方式获取,但这种方式Tatsumi感觉获取效率较低,故没有采用,如果对爬虫感兴趣的朋友可以看看Tatsumi的爬虫文章,后面也会分享本次的爬虫代码)。

因为考虑到简书全网用户较多,用执行社交网络算法和可视化的话对于单机用户Tatsumi来说是相当相当的困难,所以这里只是随机抽选了几位与机器学习和大数据相关的简书用户来进行数据爬取,最终我们获取到的数据格式如下

其中usera是被关注的用户id,userb是用户的粉丝,其他的信息还有对于usera用户的关注人数,被关注人数,文章数目,已发表总字数,获赞数。

拿到数据后便可使用Python中分析社交网络的库networkx进行社交网络分析,首先是对整个网络的读入(userpairs使用对usera,userb,weight组成的元组列表,其中weight这里都为1)

#社交图谱建立与计算
G=nx.DiGraph()
G.add_edges_from(userpairs)

有了网络后我们可以执行相关的关于整个网络的描述统计

verage_shortest_path_length = nx.average_shortest_path_length(G) #图G所有节点间平均最短路径长度(结果为0.00040136391084636026)
path=nx.all_pairs_shortest_path(G)                               #找出所有节点的最短路径

以及研究整个网络中每个节点的各种中心性度量指标

degree = nx.degree(G)      #程度中心性
in_degree_ = nx.in_degree_centrality(G) #入度
closeness_centrality = nx.closeness_centrality(G) #紧密中心性
betweenness_centrality = nx.betweenness_centrality(G) #介数中心性
eigenvector_centrality = nx.eigenvector_centrality(G)  #高特征向量中心性
pagerank = nx.pagerank(G)  #pagerank算法
clustering = nx.clustering(G) #群聚系数

由于本次的网络规模较小,很多中心性指标都为0,这里就只展示一小部分。由下图可见绝大部分用户的度中心性都为0或1(红色)

可以看到在整个网络中Albert陈凯、大数据之心、Major术业和流川枫AI是度中心性和紧密中心性最大的用户,因此大概可以猜想出整个小网络能划分成4个小群体。

#社区发现算法 best_partition
partition = community.best_partition(G)          #方法1
k_clique = list(nx.k_clique_communities(G,3))    #方法2

从社群发现的结果来看,果然整个网络主要是由Albert陈凯、大数据之心、Major术业和流川枫AI 4位用户为中心而扩散,我们便可得知在此小网络中该4位用户起着居足轻重的作用。在实际场景中,我们可以针对整个网络中的关键用户进行营销和推广,提高营销准确率,也可以利用社交网络中用户的节点信息值,如pagerank、介数中心性、紧密中心性等指标作为其他机器学习算法的输入,提升模型的效果等等。

项目心得

社交网络分析算法个人感觉还机器学习的行业中还是比较冷门的一块,Tatsumi自己也是非常想的尝试一把。这里发现几点问题就是,往往来说整个社交网络无论是微博、QQ、网易云还是其他的社交媒体,数据量往往都是非常巨大的,而要分析如此庞大的数据对于个人来说是相当相当困难,很多算法都是基于图整体信息数据进行迭代运算。所以有机会的话Tatsumi也希望能用Spark的GraphX模块来尝试尝试,另外是社交网络的可视化,由于Python中的Networkx库中画图比较的粗糙,这里Tatsumi使用的是Gephi来进行可视化(这个软件也内置封装了很多社交网络分析的常用的方法,个人感觉比较像是Spss型的软件,非常容易上手,但是数据量处理不能太大)果然数据量处理还都是瓶颈啊 ,难怪大数据会越来越火了。

Github数据代码 链接 

  • 使用scrapy对简书全站的用户关注信息进行递归爬取
  • 对简书用户关注与被关注行为建立社交网络分析模型

转载于:https://my.oschina.net/wtatsumi/blog/1924743

这篇关于简单模拟社交网络分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/854841

相关文章

C++初始化数组的几种常见方法(简单易懂)

《C++初始化数组的几种常见方法(简单易懂)》本文介绍了C++中数组的初始化方法,包括一维数组和二维数组的初始化,以及用new动态初始化数组,在C++11及以上版本中,还提供了使用std::array... 目录1、初始化一维数组1.1、使用列表初始化(推荐方式)1.2、初始化部分列表1.3、使用std::

redis群集简单部署过程

《redis群集简单部署过程》文章介绍了Redis,一个高性能的键值存储系统,其支持多种数据结构和命令,它还讨论了Redis的服务器端架构、数据存储和获取、协议和命令、高可用性方案、缓存机制以及监控和... 目录Redis介绍1. 基本概念2. 服务器端3. 存储和获取数据4. 协议和命令5. 高可用性6.

JAVA调用Deepseek的api完成基本对话简单代码示例

《JAVA调用Deepseek的api完成基本对话简单代码示例》:本文主要介绍JAVA调用Deepseek的api完成基本对话的相关资料,文中详细讲解了如何获取DeepSeekAPI密钥、添加H... 获取API密钥首先,从DeepSeek平台获取API密钥,用于身份验证。添加HTTP客户端依赖使用Jav

利用Python编写一个简单的聊天机器人

《利用Python编写一个简单的聊天机器人》这篇文章主要为大家详细介绍了如何利用Python编写一个简单的聊天机器人,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 使用 python 编写一个简单的聊天机器人可以从最基础的逻辑开始,然后逐步加入更复杂的功能。这里我们将先实现一个简单的

使用IntelliJ IDEA创建简单的Java Web项目完整步骤

《使用IntelliJIDEA创建简单的JavaWeb项目完整步骤》:本文主要介绍如何使用IntelliJIDEA创建一个简单的JavaWeb项目,实现登录、注册和查看用户列表功能,使用Se... 目录前置准备项目功能实现步骤1. 创建项目2. 配置 Tomcat3. 项目文件结构4. 创建数据库和表5.

使用PyQt5编写一个简单的取色器

《使用PyQt5编写一个简单的取色器》:本文主要介绍PyQt5搭建的一个取色器,一共写了两款应用,一款使用快捷键捕获鼠标附近图像的RGB和16进制颜色编码,一款跟随鼠标刷新图像的RGB和16... 目录取色器1取色器2PyQt5搭建的一个取色器,一共写了两款应用,一款使用快捷键捕获鼠标附近图像的RGB和16

四种简单方法 轻松进入电脑主板 BIOS 或 UEFI 固件设置

《四种简单方法轻松进入电脑主板BIOS或UEFI固件设置》设置BIOS/UEFI是计算机维护和管理中的一项重要任务,它允许用户配置计算机的启动选项、硬件设置和其他关键参数,该怎么进入呢?下面... 随着计算机技术的发展,大多数主流 PC 和笔记本已经从传统 BIOS 转向了 UEFI 固件。很多时候,我们也

基于Qt开发一个简单的OFD阅读器

《基于Qt开发一个简单的OFD阅读器》这篇文章主要为大家详细介绍了如何使用Qt框架开发一个功能强大且性能优异的OFD阅读器,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 目录摘要引言一、OFD文件格式解析二、文档结构解析三、页面渲染四、用户交互五、性能优化六、示例代码七、未来发展方向八、结论摘要

MyBatis框架实现一个简单的数据查询操作

《MyBatis框架实现一个简单的数据查询操作》本文介绍了MyBatis框架下进行数据查询操作的详细步骤,括创建实体类、编写SQL标签、配置Mapper、开启驼峰命名映射以及执行SQL语句等,感兴趣的... 基于在前面几章我们已经学习了对MyBATis进行环境配置,并利用SqlSessionFactory核

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个