基于SPSS Moderler和R的电信业客户流失分析预测

2024-02-05 07:30

本文主要是介绍基于SPSS Moderler和R的电信业客户流失分析预测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本节的内容是衔接上节数据挖掘宽表处理的部分,上节分析了电信业客户流失问题分析预测的准备工作,这节继续进行探索性分析和建模分析及模型评估,客户流失预测分为流失规则的预测以及流失评分预测。本节的流失规则预测基于决策树算法,流失评分预测基于神经网络算法实现。

四、探索性数据分析

1、离散型变量

1)名义型离散变量

使用描述图形进行探索性分析:

eg: 手机品牌的分布:

s<-summary(churn_analysis$Handset)

pie(s)    #手机品牌分布

 

2)有序性离散变量

话务量级别:

 

2、连续型变量

绘图:直方图、箱线图

在网时长和总通话费用的图形展现:

 

3、变量之间关系的探索性分析

1)离散变量与离散变量

使用网络图分析:

交叉列联表和卡方检验:SPSS Moderler输出节点“矩阵”,进行列联表分析:

2)离散变量与连续变量

高峰期通话时长与流失之间的关系:

在0.05的显著性水平下,由F值可以看出流失客户与不流失客户的高峰期通话时长有着显著差异。

3)连续变量与连续变量

可以通过散点图直观展示,也可通过计算相关系数来展示:

五、、建立模型

1、细分类模型——聚类

适用于:客户价值较低的客户群

思路:使用客户的属性变量和行为变量(不包括是否流失)对客户进行聚类分析,分析各个群组的流失率情况,找出流失率较高的群组,并分析刻画他们的特征,以便业务人员有针对性的制订营销策略。

1)连续变量离散化处理

2)类型节点处理

3)K-均值聚类

当k=7时,得到的聚类成果如下:

4)流失率计算

将这7个群组按照是否流失进行汇总,求出各群组的流失率

对以上的汇总结果进行变量排序和变量重命名后输出到表格中展示,如下:

 

5)特征分析

取流失率较高的两个群组(高流失客户群体),分析他们的特征,找出可能的流失原因。取聚类-1和聚类5两个群组,进行特征分析

流失率较高的群组特征概括:

群组编号

群组占比

流失率

客户主要特征

特征概括

聚类-1

13.6%

0.148

总花费较低
平均每分钟花费高
处免费时长外计费时长少
高峰与非高峰通话时长少
周末通话时长较长
使用的资费方案为play

低价值客户
周末电话为主
资费方案有待优化

聚类-5

10.3%

0.083

总花费较高
高峰通话时间长,非高峰短
周末电话占比低
周末通话次数少,但通话时间较长

较高价值客户
上班族,以工作电话为主
周末亲情电话

以上为流失率较高的两类客户的特征概括,可以将这种模型提供给运营和营销人员,方便他们根据客户特征制定相关的营销策略,有效率地提高流失召回效率。

2、流失规则预测模型

1)分区

按照7:3分配训练集和测试集,也可改变该分配比例来比较分类预测的效果

 

 2)建立决策树模型

 

3)使用模型查看器查看决策树分类规则 

Tariff_OK in [ "High CAT 100" "High CAT 50" "High Play 100" ] [ 模式:1 ] => 1 

Tariff_OK in [ "OK" ] [ 模式:0 ] 

    Handset in [ "ASAD170" "BS210" "CAS60" "S80" "WC95" ] [ 模式:0 ] => 0 

    Handset in [ "ASAD90" ] [ 模式:1 ] 

       Usage_Band = 中使用率 [ 模式:1 ] => 1 

       Usage_Band = 低使用率 [ 模式:0 ] => 0 

       Usage_Band = 极高使用率 [ 模式:1 ] 

           Gender = 女 [ 模式:1 ] 

              Peak_mins_Ratio <= 0.830 [ 模式:1 ] => 1 

              Peak_mins_Ratio > 0.830 [ 模式:0 ] 

                  Peak_mins_Trend <= 7.424 [ 模式:1 ] => 1 

                  Peak_mins_Trend > 7.424 [ 模式:0 ] => 0 

           Gender = 男 [ 模式:0 ] => 0 

       Usage_Band = 高使用率 [ 模式:1 ] 

           Age <= 51 [ 模式:1 ] => 1 

           Age > 51 [ 模式:0 ] => 0 

    Handset in [ "BS110" ] [ 模式:0 ] 

       Peak_mins_Ratio <= 0.491 [ 模式:0 ] 

           National_calls <= 88 [ 模式:0 ] 

              Gender = 女 [ 模式:0 ] => 0 

              Gender = 男 [ 模式:1 ] => 1 

           National_calls > 88 [ 模式:1 ] 

              AveOffPeak <= 13.254 [ 模式:1 ] => 1 

              AveOffPeak > 13.254 [ 模式:0 ] => 0 

       Peak_mins_Ratio > 0.491 [ 模式:0 ] 

           International_mins <= 178.474 [ 模式:0 ] 

              AveNational <= 10.161 [ 模式:0 ] => 0 

              AveNational > 10.161 [ 模式:0 ] 

                  Gender = 女 [ 模式:0 ] => 0 

                  Gender = 男 [ 模式:1 ] => 1 

           International_mins > 178.474 [ 模式:0 ] 

              International_mins_Ratio <= 0.183 [ 模式:0 ] => 0 

              International_mins_Ratio > 0.183 [ 模式:1 ] => 1 

    Handset in [ "CAS30" ] [ 模式:1 ] 

       call_cost_per_min <= 7.915 [ 模式:0 ] => 0 

       call_cost_per_min > 7.915 [ 模式:1 ] 

           Usage_Band in [ "中使用率" "极高使用率" "高使用率" ] [ 模式:1 ] => 1 

           Usage_Band in [ "低使用率" ] [ 模式:1 ] 

              Peak_calls <= 176 [ 模式:1 ] 

                  AveOffPeak <= 1.591 [ 模式:0 ] => 0 

                  AveOffPeak > 1.591 [ 模式:1 ] => 1 

              Peak_calls > 176 [ 模式:0 ] => 0 

    Handset in [ "S50" ] [ 模式:0 ] 

       Total_Cost <= 99.515 [ 模式:0 ] 

           Tariff in [ "CAT 100" "CAT 200" ] [ 模式:0 ] => 0 

           Tariff in [ "CAT 50" "Play 300" ] [ 模式:0 ] => 0 

           Tariff in [ "Play 100" ] [ 模式:1 ] => 1 

       Total_Cost > 99.515 [ 模式:0 ] 

           Age <= 25 [ 模式:0 ] 

              International_mins <= 181.009 [ 模式:0 ] 

                  Gender = 女 [ 模式:1 ] => 1 

                  Gender = 男 [ 模式:0 ] => 0 

              International_mins > 181.009 [ 模式:1 ] 

                  average cost min <= 0.145 [ 模式:0 ] => 0 

                  average cost min > 0.145 [ 模式:1 ] => 1 

           Age > 25 [ 模式:0 ] 

              International_mins <= 178.126 [ 模式:0 ] 

                  Gender = 女 [ 模式:1 ] => 1 

                  Gender = 男 [ 模式:0 ] => 0 

              International_mins > 178.126 [ 模式:0 ] => 0 

    Handset in [ "SOP10" "SOP20" ] [ 模式:1 ] => 1 

4)决策树

5)查看分类训练和预测结果

6)生成SQL脚本

a) 生成模型后选择生成SQL脚本  

*注:boosting默认不能生成SQL脚本

b) 接下来,将SQL脚本导入PL/SQL中:

文件—>打开—>SQL脚本

c) 将数据EXCEL表导入PL/SQL中:

对于数据集较小的表:

可以先在数据库中建立一个表(CLASS)

最终显示的结果为C0和C1两列值,C0表示的是预测值,C1表示预测的准确率。

7)模型评估

提升图:

 

图形结果显示,提升度随RPP(正类预测比例)的提高呈降序分布,且提升度较高,说明模型的预测准确率较高,比随机预测提升了较高的水平。

ROC曲线:

ROC曲线显示预测模型对1的敏感度很高,说明模型的预测效果很好。

8)模型分析

 

 结果显示模型的整体预测准去率达到了94.61%,而且模型的命中率为61.82%,模型的查全率为75.78%。

3、流失评分预测模型(神经网络算法实现)

 

 1)缺失值处理

将空值取值为0

2)离散目标变量(churn)更改为连续目标变量(churncore)

将1取值为100

0取值为0

3)随机抽取训练集和测试集

 

4)建立神经网络模型

 

5)模型分析和评估

 

转载于:https://www.cnblogs.com/yyyu2/p/6595114.html

这篇关于基于SPSS Moderler和R的电信业客户流失分析预测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/680165

相关文章

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

客户案例:安全海外中继助力知名家电企业化解海外通邮困境

1、客户背景 广东格兰仕集团有限公司(以下简称“格兰仕”),成立于1978年,是中国家电行业的领军企业之一。作为全球最大的微波炉生产基地,格兰仕拥有多项国际领先的家电制造技术,连续多年位列中国家电出口前列。格兰仕不仅注重业务的全球拓展,更重视业务流程的高效与顺畅,以确保在国际舞台上的竞争力。 2、需求痛点 随着格兰仕全球化战略的深入实施,其海外业务快速增长,电子邮件成为了关键的沟通工具。

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

MOLE 2.5 分析分子通道和孔隙

软件介绍 生物大分子通道和孔隙在生物学中发挥着重要作用,例如在分子识别和酶底物特异性方面。 我们介绍了一种名为 MOLE 2.5 的高级软件工具,该工具旨在分析分子通道和孔隙。 与其他可用软件工具的基准测试表明,MOLE 2.5 相比更快、更强大、功能更丰富。作为一项新功能,MOLE 2.5 可以估算已识别通道的物理化学性质。 软件下载 https://pan.quark.cn/s/57

衡石分析平台使用手册-单机安装及启动

单机安装及启动​ 本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。 在安装前请确认网络环境,如果是隔离环境,无法连接互联网时,请先按照 离线环境安装依赖的指导进行依赖包的安装,然后按照本文的指导继续操作。如果网络环境可以连接互联网,请直接按照本文的指导进行安装。 准备工作​ 请参考安装环境文档准备安装环境。 配置用户与安装目录。 在操作前请检查您是否有 sud

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号

【软考】希尔排序算法分析

目录 1. c代码2. 运行截图3. 运行解析 1. c代码 #include <stdio.h>#include <stdlib.h> void shellSort(int data[], int n){// 划分的数组,例如8个数则为[4, 2, 1]int *delta;int k;// i控制delta的轮次int i;// 临时变量,换值int temp;in

三相直流无刷电机(BLDC)控制算法实现:BLDC有感启动算法思路分析

一枚从事路径规划算法、运动控制算法、BLDC/FOC电机控制算法、工控、物联网工程师,爱吃土豆。如有需要技术交流或者需要方案帮助、需求:以下为联系方式—V 方案1:通过霍尔传感器IO中断触发换相 1.1 整体执行思路 霍尔传感器U、V、W三相通过IO+EXIT中断的方式进行霍尔传感器数据的读取。将IO口配置为上升沿+下降沿中断触发的方式。当霍尔传感器信号发生发生信号的变化就会触发中断在中断

kubelet组件的启动流程源码分析

概述 摘要: 本文将总结kubelet的作用以及原理,在有一定基础认识的前提下,通过阅读kubelet源码,对kubelet组件的启动流程进行分析。 正文 kubelet的作用 这里对kubelet的作用做一个简单总结。 节点管理 节点的注册 节点状态更新 容器管理(pod生命周期管理) 监听apiserver的容器事件 容器的创建、删除(CRI) 容器的网络的创建与删除

PostgreSQL核心功能特性与使用领域及场景分析

PostgreSQL有什么优点? 开源和免费 PostgreSQL是一个开源的数据库管理系统,可以免费使用和修改。这降低了企业的成本,并为开发者提供了一个活跃的社区和丰富的资源。 高度兼容 PostgreSQL支持多种操作系统(如Linux、Windows、macOS等)和编程语言(如C、C++、Java、Python、Ruby等),并提供了多种接口(如JDBC、ODBC、ADO.NET等