联通案例|利用大数据分析,识别电话诈骗个人隐私信息泄露途径

本文主要是介绍联通案例|利用大数据分析,识别电话诈骗个人隐私信息泄露途径,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.被呼号码临界熵的计算


0?wx_fmt=jpeg


电话诈骗具有明显的特点(见图1)。据统计,电话诈骗的平均成功率仅为0.28%,即平均要打上357次电话才有可能诈骗成功一次,所以电话诈骗也是个费时费力的“工作”。一般而言,电话诈骗中受其侵害的群体比较广泛,有些是非特定的,采取顺序拨号,有些却是有明确目标、针对性比较强的。这些有针对性的诈骗,通常都是受害者的个人信息被泄露所引发的,而且诈骗人可能针对已获取信息为此类群体准备了专门的沟通“脚本”。

0?wx_fmt=png

图1:电话诈骗呼叫时点与通话时长的分布


为了从被举报的电话诈骗中,发现有明确目标的“无序”(明显的吉祥号码除外)被呼号码,我们引入了“临界熵”(marginal entropy)指标,同时采用“滑动窗口法”来计算熵值,进一步挖掘被呼号码间的关联。相比以往的“隔断窗口法”,在处理数据方面“滑动窗口法”具有明显的优势(见图2)。

0?wx_fmt=png

图 2: 同一窗口长度下 ,

(a)隔断窗口法与 (b)滑动窗口法比较


设定“连号”被呼号码的熵为锚,熵值越大,号码目的性越强,即号码“无规则”、“无序”的状况越严重,也就有更大的可能被泄露了个人信息。



2、被呼用户特征分析


2.1城市功能微网格地图


自2015年起,中国联通网络技术研究院与各省公司合作,实施对全国334个城市的市区功能微网格的划分与分析。微网格是对有效覆盖区域进行小范围区域的划分,划分总体原则包括:a)微网格是闭环结构,尽量避免和减少宫格交叉、重叠。b)微网格应考虑地形地貌,以道路、河流为宫格边界。c)微网格要充分考虑用户聚集特征(如高校、医院、家属院、政府机关、集团客户等),将用户特征相似的区域划分为一个宫格;划分后的宫格要进行分类和命名,以便后续管理、分析。d)宫格面积在1km2左右。根据用户聚集特征,宫格按如表1进行分类。

表1:宫格分类表(包括但不限于此33类)

0?wx_fmt=png


2.2 手机用户常驻地识别


从运营商角度,分析手机用户常驻地主要依靠B域话单数据和O域信令数据;两者都是以基站交叉定位为主,但却容易受到手机信号在周边基站间存在乒乓切换等影响,对定位精度有较大干扰。这里,我们创新地引入了联合熵(joint entropy)的相关算法来有效解决这一问题(其中,临界熵是计算独立变量的不确定性,而联合熵是计算有相互影响作用变量的不确定性)。

这样,从手机用户的日常个人行为轨迹中,参考时间维度,可以提炼出其主要的常驻地(即居住地和工作地),结合手机实名制信息与城市功能微网格地图,能够初步推测其职业身份。过程如图3所示。

0?wx_fmt=png

 图 3:(A)某一手机用户日常活动轨迹;

(B)日间工作与夜间休息两个关键时段的常驻区域.

(C)工作区内更细化的微网格位置对应.


3、个人信息泄露情境分析


利用手机诈骗的投诉与报案数据,将用户个人信息泄露分为四种情境:情境 I:  被呼手机用户群体常驻地高度重合,例如,都在同一学校、同一公司办公大楼或同一政府机关。则这样的情况,很可能是从本单位泄露了个人信息。当然有可能是有人内应,也有可能是单位信息防护管理不力,被外部黑客攻击。情境 II : 如果被呼手机用户群体常驻地不相同,但他们的相关亲属关系人中却都被发现有常驻地相同的情况,例如用户的孩子在同一个学校上学,这样用户的个人信息就有可能被间接地泄露出去。其中,手机用户的社会网络分析技术可以完全发现用户的较近关系人特征,如住在同一小区、平时通话特点、以及春节节假日活动轨迹高度吻合等(见图4)。情境III:如果从投诉中心与报案描述中,发现诈骗者甚至知道用户的身份证号和银行卡号,那么我们与中国人民银行征信中心联手,可以对这类被呼手机用户进行银行账户查询统计,从而发现是否用户是否在同一银行开户,如果发现存在同一银行开户情况,则可能是从银行渠道泄露的信息。如果未发现同一银行开户现象,还可以进一步与投诉用户确认,是否在同一购物网站上开设支付功能。情境IV: 通过以上三种情境筛选,如果仍不能发现被呼用户间存在明显的关联性,那么,用户群体中的个人信息泄露可能归因于其他类的个体化行为,情景较为分散,可能由于个人保护意识不强而引发的信息泄露。采用分层递进分类(one against rest)法对四种信息泄露情境进行判别过程(如图5所示),根据两分原理设定三个判别模型,经ROC面积法检验,模型效果较好(见图6)。

0?wx_fmt=png

图4:手机用户社会网络关系示意图


0?wx_fmt=png

图5:分层递进分类(one against rest)法


0?wx_fmt=png

图6:三种模型的ROC曲线下面积对比(>0.5)



4、大数据分析平台



在判别分析中,涉及到大量的用户数据去收集、存储与计算,包括离线数据与实时数据,结构数据与非结构数据,如行为轨迹的图数据、投诉文本数据等。为了保证执行分析的高效性,我们建立了具有四个层次的大数据分析平台(见图6左)。第一层是接口层,提供数据的收集汇总服务,数据来源包括运营商与中国人民银行征信中心,数据涉及用户手机所产生的相关数据与用户在银行的金融账户数据等。第二层用来数据处理与计算,包括用户常驻地图、社会网络分析、离线数据与实时数据处理等内容。第三层是资源管理层,采用大数据分布式存储的HBASE和HDFS文件管理系统,在计算框架方面采用了Spark技术。相比Hadoop技术,由于Spark利用内存计算,执行效率大为提高。第四是硬件部分,主要包括计算与存储的物理资源。在此基础上,在用户常驻地分析与社会网络分析方面,我们采用了多分类器并行迭代算法,并且加入部分有价值的虚拟变量(哑变量),有效提高了常驻地与社会网络分析模型的精确度(见图6右部分)

0?wx_fmt=png

原文发布时间为:2017-04-15

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

这篇关于联通案例|利用大数据分析,识别电话诈骗个人隐私信息泄露途径的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/167085

相关文章

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

菲律宾诈骗,请各位华人朋友警惕各类诈骗。

骗子招聘类型:程序开发、客服、财务、销售总管、打字员等 如果有人用高薪、好的工作环境来你出国工作。要小心注意!因为这些骗子是成群结伴的! 只要你进入一个菲律宾的群,不管什么类型的群都有这些骗子团伙。基本上是他们控制的! 天天在群里有工作的信息,工作信息都是非常诱惑人的。例如招“打字员”、“客服”、“程序员”……各种信息都有。只要你提交简历了,他会根据你的简历判断你这个人如何。所谓的心理战嘛!

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

客户案例:安全海外中继助力知名家电企业化解海外通邮困境

1、客户背景 广东格兰仕集团有限公司(以下简称“格兰仕”),成立于1978年,是中国家电行业的领军企业之一。作为全球最大的微波炉生产基地,格兰仕拥有多项国际领先的家电制造技术,连续多年位列中国家电出口前列。格兰仕不仅注重业务的全球拓展,更重视业务流程的高效与顺畅,以确保在国际舞台上的竞争力。 2、需求痛点 随着格兰仕全球化战略的深入实施,其海外业务快速增长,电子邮件成为了关键的沟通工具。

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。