本文主要是介绍老王带你搞定社交网络分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
程序员老王对隔壁公司的美女经理阿花十分仰慕,虽然他们常常在写字楼电梯间偶遇,最多也就是点头问好,但怎样才能名正言顺和阿花在工作以外的时空产生交集?其实,人与人之间的关系往往错综复杂,何不让数据模型帮你挖掘一下,找出打入阿花朋友圈的最短路径?本期就让老王带你了解社交网络分析(SNA)。
社交网络分析究竟是干嘛的
社交网络分析(Social Network Analysis) 最早是由英国著名人类学家拉德克利夫-布朗(Radcliffe-Brown)在对社会结构的分析关注中提出,是理解人类(可延展为任意主体)各种关系的构成、交互模式以及信息传播规律的分析方法,使用技术包括离散数学、随机过程、社会学、管理学、心理学等多学科的融合理论和方法。
上面这段太玄乎了,我们实在点,搞懂了SNA,你可以解决这几种问题:
可达性问题
如果你有全城人的电话通讯录,SNA可以告诉你某人和阿花是否认识,即使TA的电话本里没有阿花的电话;
老王到阿花可能有多种联系方式,找到途径节点最少的那条。
传播问题
老王的朋友圈里,有三个是Fintech精英,年薪百万,还有两个赌徒,他还有一个叔叔是被法院通告的老赖;能否估计老王经济状况,信用风险?
广告投放给谁传播效率最高?你关注的大V是真的传播力惊人还是八十万水军教头?公司里谁是八卦源头?
演进问题
你在Linkedin 上更新了职位,是不是收到了很多新的人脉介绍?Linkedin 是怎样优化推荐算法帮你打入新圈子?
公司从10人打拼到500人,人事结构经历怎样变化?如何优化组织的人力结构?怎样从邮件交互中识别谁是拍板的,谁是跑腿的,谁是活稀泥的?
社交网络基本要素
为完成以上目标,我们要用图语言来描述问题和建模,不用担心,大部分是非常符合直觉的概念。
- 节点(Node):节点是指要分析的物体,每一个物体就是一个节点,比如在Social Network中每个人就是一个节点。
- 边(Edge):Graph中两个节点间的连线,用于表示两个节点的关系。比如在Social Network中两个人的关注关系,微博传播中转发关系。
- 图(Graph):图是用来表示一组物体之间的关系的方式。有向图(Directed Graph):边代表的关系具有方向的图。比如微博的关注关系,电话拨入呼出,银行转账收账就是有方向的。无向图(Undirected Graph):边代表的关系没有方向的图。
- 度(Degree):节点的度是指与其相连的边数,你通讯录的名单长度就是你的联络人度数。
- 输入度(In-degree):有向图中一个节点收到的边。
- 输出度(Out-degree):有向图中一个节点发出的边。
- 路径(Route): 两个节点之间经过的边和节点序列,路径有长度,通常衡量两个点之间的距离。
社交网络分析的应用
小世界(六度分隔):找对人
在日常生活中,有时你会发现,某些你觉得与你隔得很“遥远”的人,其实与你“很近”。小世界网络就是对这种现象(也称为小世界现象)的数学描述。用数学中图论的语言来说,小世界网络就是一个由大量顶点构成的图,其中任意两点之间的平均路径长度比顶点数量小得多。除了社会人际网络以外,小世界网络的例子在生物学、物理学、计算机科学等领域也有出现。二十世纪60年代,美国哈佛大学社会心理学家斯坦利·米尔格伦(Stanley Milgram)做了一个连锁信实验。他将一些信件交给自愿的参加者,要求他们通过自己的熟人将信传到信封上指明的收信人手里,他发现,20%的信件最终送到了目标人物手中。而在成功传递的信件中,平均只需要6.5次转发,就能够到达目标。也就是说,在社会网络中,任意两个人之间的“距离”是6。这就是所谓的“六度分隔”理论。
三元闭包:弱联系会变成强联系
这个是对网络稳定性的探讨,是关于网络演进非常基础也很重要的一个认识。如果存在 a <-> b, b <-> c, 那 a <-> c 的期望会非常高 。在时间序列上对很多网络的动态演进过程分析都验证了这个观点。对它的解读也非常符合我们的日常认识:近墨黑,近朱赤; 爱屋及乌 等。
三元闭包在很多线上线下场景都有很多的应用。比如你在 Linkedin 上更新一下联系人,会得到后台很多联系人推送,你会发现Linkedin 的推送节制而高效,既没过分打扰,又能打开你的人脉,这种推送是基于三元闭包理论的。
三种重要结构:环、簇、树
环
三元闭包构成了一个最小的稳定结构:包含3个节点的环(Loop)。 对一般社交网络来说,环形结构不算特别。在有些场景,环形意味着风险和欺诈。
比如收集一个年度所有车辆受损和理赔案件信息,构成一个理赔网络。因为车辆事故是低概率事件, 这个网络必定是节点数量远远超过边的数量的稀疏图。如果在这样的网络里你能找到这样的撞车-理赔链条:
这个链条就非常可疑,往往和团伙骗保相关。
簇
除了环形(Loop),还有一种结构特别重要:聚集(Clique)。根据小世界理论,微弱的关联可以让全世界构成一个大的网络,如果以路径可达作为‘认识’ 的判断标准,看起来感觉谁都认识,但是谁都不熟。 Clique 就是一个强连接的小网络:如果一群人两两直接认识,这一群人构成一个Clique。举个例子,产品部的同学们彼此认识,整个部门是一个Clique;产品部的小洪因为参加足球队认识了开发部一众兄弟,通过小洪同学,整个产品部都可以和开发部传递需求,但是产品部+开发部不是一个Clique,因为两边只要有一对人不能直接沟通就不算是Clique了。 说到这里Clique 的重要性就很明了。
树
树形结构代表是人力资源图,对大部分公司来说这都是仅限HR访问的资源,有检验的人在公司结构图中可以窥见很多信息:公司发展处于那个阶段, 结构是否健康,资源倾斜在那个业务线,人力交叉情况,信息流通成本。
多数树形结构都不是严格树,存在环形和共享叶节点。严格树形暗示这是个不同寻常的人事组织,比如邪教和传销组织,教主为了保持神秘性,传销头目为了掌控自己的下线资源,往往有意控制人事网络的结构,行成金字塔形, 并让底部网络尽可能隔离,避免下线自由交换信息,保持自己的控制力。这种网络结构非常不自然,在正常的社交压力下非常容易崩溃变形,只有通过洗脑,精神/金钱控制才能存在。
社交网络分析难点在哪里
简单说,非线性的模型都很难,而SNA玩的就是网络,肯定难上加难。以上问题除了能一阶判断的可达性,没有一个是简单的。原因如下:
图分析最坏情况通常很坏
考虑最简单的可达判断,如果原始关系是点对存储 (a -> b), 想得到 (x -> y) 的结果需要遍历完成。因为图的结构特点,遍历图比遍历列表,遍历字典更难以预期。一个经典的例子是小世界网络(也叫六度分割),大意是地球上任意两个人的社交距离不会大于6。反过来想就是:从一个人出发,只要六次深度遍历迭代就要访问所有人的信息!为了判断阿明是否认识阿花,如果我们不走运,可能要遍历全城的人信息才能得出一个肯定的答案,而这差不多是SNA中最简单的问题了(图中右下方红色路径)!
结构不稳定
这也是和非线性结构相关的。拿身边的例子说,滴滴 和 uber突然合并前,管理层一对姐妹花是认识的,少量员工可能在挖角中互换阵营也是认识的,但两家公司构成的人员网络大体上是分开的。随着突然并购,两家公司网络迅速融合,任意两个节点的可达性,关系路径长度都发生了极大的变化。如果用临时表存储上述信息,这张大表在一天之内的有效性就降低为零了。牵一发动全身形容网络对微小变化的敏感实在太贴切了。
总结
由于在线社交网络具有的规模庞大、动态性、匿名性、内容与数据丰富等特性,近年来以社交网站、博客、微博等为研究对象的新兴在线社交网络分析研究得到了蓬勃发展,在社会结构研究中具有举足轻重的地位。
今天说了这么多和社交网络分析有关的原理和概念,想必老王这样的老司机早就在码代码了。别着急!下期让老王接着讲讲,如何规避上述社交网络分析的难点,并着重讲讲其在现实场景中的应用。
本文作者:佚名
来源:51CTO
这篇关于老王带你搞定社交网络分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!