机器学习实战---用户流失预测

2024-04-12 16:32

本文主要是介绍机器学习实战---用户流失预测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python机器学习实战---用户流失预测

6 人赞了该文章

在过去的几年里,随着移动通讯设备和4G网络的普及,移动,电信,联通这三大通讯运营商之间的竞争愈发激烈,如何获取新用户?如何减少老用户流失?成了三大运营商头疼的问题,此次案例我们根据某个运营商的真实数据,通过数据分析和建立用户流失预测模型,来理解用户流失的一些重要规律。


本次案例分为这么几个部分:

  • 数据导入及预处理
  • 数据探索性分析
  • 数据建模(采用决策树模型)
  • 模型结果评价
  • 决策树可视化
  • 总结和思考

【数据导入及预处理】

1.数据来源:

本次案例数据取自“狗熊会”公众号上分享的手机客户流失数据,大家有兴趣可以关注一下这个公众号,上面有很多关于数据分析和建模的行业案例,并提供一些行业数据下载练习。

2.数据导入:

下载的文件为 ' CustomerSurvival.csv ',我们将数据导入到Python中:

# 导入分析用到的模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('ggplot')
import seaborn as sns
sns.set_style('darkgrid')
sns.set_palette('muted')
# 导入csv文件
df = pd.read_csv('C:/Users/Administrator/Desktop/CustomerSurvival.csv',encoding='utf-8')
df.head()

3. 数据理解及变量解释

先看一下数据的概况:

df.info()

一共10个字段,且都是数值型变量,4975行数据,为便于分析,我们将中文字段改为英文:

df.columns = ['id','pack_type','extra_time','extra_flow','pack_change','contract','asso_pur','group_user','use_month','loss']
df.info()

变量含义及解释:

  • id -- 用户的唯一标识
  • pack_type -- 用户的月套餐的金额,1为96元以下,2为96到225元,3为225元以上
  • extra_time -- 用户在使用期间的每月额外通话时长,这部分需要用户额外交费。数值是每月的额外通话时长的平均值,单位:分钟
  • extra_flow -- 用户在使用期间的每月额外流量,这部分需要用户额外交费。数值是每月的额外流量的平均值,单位:兆
  • pack_change -- 是否曾经改变过套餐金额,1=是,0=否
  • contract -- 用户是否与联通签订过服务合约,1=是,0=否
  • asso_pur -- 用户在使用联通移动服务过程中是否还同时办理其他业务,1=同时办理一项其他业务,2=同时办理两项其他业务,0=没有办理其他业务
  • group_use -- 用户办理的是否是集团业务,相比个人业务,集体办理的号码在集团内拨打有一定优惠。1=是,0=否
  • use_month -- 截止到观测期结束(2012.1-2014.1),用户使用联通服务的时间长短,单位:月
  • loss -- 在25个月的观测期内,用户是否已经流失。1=是,0=否

---因变量是 'loss',是否流失,也是我们预测的目标值

---自变量分为三类:

# 连续型变量:extra_time,extra_flow, use_month

# 二元分类变量:pack_change,contract, group_use

# 多元分类变量:pack_type,asso_pur


4. 数据的预处理

先看一下各个字段是否有缺失:

df.isnull().any()

每个字段都没有缺失值,数据很完整,可以不作缺失值处理。

再判断一下用户的id是否唯一:

len(df.id.unique())

输出为:4975,与行数目一致,id没有重复值,每条记录都是唯一的。


【数据的探索性分析】

1. 数据的描述性统计:

df.describe()

可以看到extra_time和extra_flow有正负值,正数表示用户有额外的通话时长和流量,负数为用户在月底时剩余的套餐时长和流量。从四分位数中可看出超过一半的用户有额外通话时间,流量的话只有小部分用户超额使用了。另外其他的分类型变量在描述统计上并未发现有异常的地方。

在这里特别注意下use_month这个变量,数据的观测区间为2012.1-2014.1,一共25个月,且案例中关于流失的定义为:

超过一个月没有使用行为(包括通话,使用流量)的用户判定为流失

在数据集中use_month小于25个月的基本都是流失状态,所以这个变量对于流失的预测并没有什么关键作用,后续导入模型时需剔除这个变量。

2. 变量的分布

首先看一下两个连续型变量:extra_time和extra_flow的数据分布:

plt.figure(figsize = (10,5))
plt.subplot(121)
df.extra_time.hist(bins = 30)
plt.subplot(122)
df.extra_flow.hist(bins = 30)

extra_time呈现的是右偏分布,extra_flow近似服从正态分布,与描述统计中的情况大致吻合

接下来看看分类型变量的分布:

fig,axes = plt.subplots(nrows = 2,ncols = 3, figsize = (10,6))
sns.countplot(x = 'pack_type',data = df,ax=axes[0,0])
sns.countplot(x = 'pack_change',data = df,ax=axes[0,1])
sns.countplot(x = 'contract',data = df,ax=axes[0,2])
sns.countplot(x = 'asso_pur',data = df,ax=axes[1,0])
sns.countplot(x = 'group_user',data = df,ax=axes[1,1])
sns.countplot(x = 'loss',data = df,ax=axes[1,2])

可以看到pack_type, pack_change, asso_pur的类型分布非常不均衡,例如asso_pur,办理过套餐外业务的用户数量极少,导致样本缺乏足够的代表性,可能会对模型的最终结果产生一定的影响。

3. 自变量与因变量之间的关系:

对于extra_time和extra_flow绘制散点图观察:

plt.figure(figsize = (10,6))
df.plot.scatter(x='extra_time',y='loss')
df.plot.scatter(x='extra_flow',y='loss')

从散点图上似乎感觉两个自变量与是否流失并无关系,为了更好的展示其相关性,我们对extra_time和extra_flow进行分箱处理,再绘制条形图:

# 增加分箱后的两个字段
bin1 = [-3000,-2000,-500,0,500,2000,3000,5000]
df['time_label'] = pd.cut(df.extra_time,bins = bin1)
bin2 = [-3000,-2000,-500,0,500,2000,3000]
df['flow_label'] = pd.cut(df.extra_flow,bins = bin2)
# 观察一下分箱后的数据分布
time_amount = df.groupby('time_label').id.count().sort_values().reset_index()
time_amount['amount_cumsum'] = time_amount.id.cumsum()
time_amount['prop'] = time_amount.apply(lambda x:x.amount_cumsum/4975,axis =1)
flow_amount = df.groupby('flow_label').id.count().sort_values().reset_index()
flow_amount['amount_cumsum'] = flow_amount.id.cumsum()
flow_amount['prop'] = flow_amount.apply(lambda x:x.amount_cumsum/4975,axis=1)

---对extra_time进行累加统计,发现【-500,500】这个区间的用户占了80%,符合二八定律

---对extra_flow进行累加统计,发现【-500,500】占了95%,且(-500,0】的用户占80%,可以说只有小部分用户每月会超额使用流量。

绘制条形图:

sns.countplot(x = 'time_label',hue = 'loss',data =df)
sns.countplot(x = 'flow_label',hue = 'loss',data =df)

可以明显的看出用户使用的通话时间和流量越多,流失概率越低,这些超额使用的用户在用户分类中属于'高价值用户',用户粘性很高,运营商应该把重点放在这些用户身上,采取有效的手段预防其流失。

接着看其他自变量与流失的关系:

fig,axes = plt.subplots(nrows = 2,ncols = 3, figsize = (12,8))
sns.countplot(x = 'pack_type',hue = 'loss',data =df,ax = axes[0][0])
sns.countplot(x = 'pack_change',hue = 'loss',data =df,ax = axes[0][1])
sns.countplot(x = 'contract',hue = 'loss',data =df,ax = axes[0][2])
sns.countplot(x = 'asso_pur',hue = 'loss',data =df,ax = axes[1][0])
sns.countplot(x = 'group_user',hue = 'loss',data =df,ax = axes[1][1])

初步得出以下结论:

1).套餐金额越大,用户越不易流失,套餐金额大的用户忠诚度也高

2).改过套餐的用户流失的概率变小

3).签订过合约的流失比例较小,签订合约也意味着一段时间内(比如2年,3年)用户一般都不会更换运营商号码,可以说签订合约的用户比较稳定

4).办理过其它套餐业务的用户因样本量太少,后续再研究

5).集团用户的流失率相比个人用户低很多

最后通过相关性矩阵热力图观察各变量之间的相关性:

internal_chars = ['extra_time','extra_flow','pack_type','pack_change','contract','asso_pur','group_user','loss']
corrmat = df[internal_chars].corr()
f, ax = plt.subplots(figsize=(10, 7))
plt.xticks(rotation='0')
sns.heatmap(corrmat, square=False, linewidths=.5, annot=True)

各自变量之间的相关性程度很低,排除了共线性问题。在对因变量的相关性上contract和group_user的系数相比其它变量较高,但也不是很强。


【数据建模】

因为自变量大多数为分类型,所以用决策树的效果比较好,而且决策树对异常值的敏感度很低,生成的结果也有很好的解释性。

1.特征的预处理

根据前面的探索性分析,并基于业务理解,我们决定筛选这几个特征进入模型:

extra_time,extra_flow,pack_type, pack_change, asso_pur

contract以及group_use,这些特征都对是否流失有一定的影响。

对于extra_time,extra_flow这两个连续型变量我们作数据转换,变成二分类变量,这样所有特征都是统一的度量。

df['time_tranf'] = df.apply(lambda x:1 if x.extra_time>0 else 0,axis =1)
df['flow_tranf'] = df.apply(lambda x:1 if x.extra_flow>0 else 0,axis =1)
df.head()

将没有超出套餐的通话时间和流量记为0,超出的记为1。

2. 建立自变量x, 因变量y的二维数组:

x = df.loc[:,['pack_type','time_tranf','flow_tranf','pack_change','contract','asso_pur','group_user']]
x = np.array(x)
x
y = df.loss
y = y[:, np.newaxis]
y

3. 拆分训练集和测试集,比例为7:3

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)

4. 建立决策树模型并拟合训练:

from sklearn import tree
clf = tree.DecisionTreeClassifier(criterion='gini', --设置衡量的系数splitter='best', --选择分类的策略max_depth=5, --设置树的最大深度min_samples_split=10,--节点的最少样本数min_samples_leaf=5 -- 叶节点的最少样本数)
clf = clf.fit(x_train,y_train)  -- 拟合训练

这里我们采用决策树中CART算法,基于gini系数进行分类,设置树的最大深度为5,区分一个内部节点需要的最少的样本数为10,一个叶节点所需要的最小样本数为5。

决策树最大的缺点是容易出现过拟合,所以我们先看一下模型对于训练数据和测试数据两者的评分情况:

train_score = clf.score(x_train,y_train) # 训练集的评分
test_score = clf.score(x_test,y_test)   # 测试集的评分
'train_score:{0},test_score:{1}'.format(train_score,test_score)

可以看到针对训练集评分为0.874,针对测试集评分为0.867,两者近乎相等,说明模型较好的拟合训练集与测试集数据。


5.优化模型参数

对于决策树来说,可调参数有max_depth,min_samples_leaf,min_samples_split,

min_impurity_split等,一般用来解决模型过拟合的问题,也是一种“前剪枝”的方法。

我们以优化max_depth为例:

# 模型的参数调优--max_depth
# 创建一个函数,使用不同的深度来训练模型,并计算评分数据
def cv_score(d):clf2 = tree.DecisionTreeClassifier(max_depth=d)clf2 = clf2.fit(x_train,y_train)tr_score = clf2.score(x_train,y_train)cv_score = clf2.score(x_test,y_test)return (tr_score, cv_score)
# 构造参数范围,在这个范围内构造模型并计算评分
depths = range(2,15)
scores = [cv_score(d) for d in depths]
tr_scores = [s[0] for s in scores]
cv_scores = [s[1] for s in scores]
# 找出交叉验证数据集最高评分的那个索引
best_score_index = np.argmax(cv_scores)
best_score = cv_scores[best_score_index]
best_param = depth[best_score_index]
print('best_param : {0},best_score: {1}'.format(best_param,best_score))

最优的深度为5,最佳评分为0.868,这与我们一开始设置的最大深度相同。

我们还可以将模型参数与评分的关系画出来,更可以清楚地看到其变化规律:

plt.figure(figsize = (4,2),dpi=150)
plt.grid()
plt.xlabel('max_depth')
plt.ylabel('best_score')
plt.plot(depths, cv_scores,'.g-',label = 'cross_validation scores')
plt.plot(depths,tr_scores,'.r--',label = 'train scores')
plt.legend()

在生成的图中可以看出当深度为5时,交叉验证数据集的评分与训练集的评分比较接近,且两者的评分比较高,当深度超过5以后,俩者的差距变大,交叉验证数据集的评分变低,出现了过拟合情况。


【模型结果评价】

可以调用Scikit-learn的classification_report模块,生成分析报告。

from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

这里说一下评价模型好坏的指标:

精确率,召回率,F1,AUC和ROC曲线,KS值。

以这个用户流失预测模型为例,它是一个有监督的二分类模型,我们把模型应用在测试集数据后会产生一个“预测表现”和“实际表现”,形成一个混淆矩阵:

精确率 = TP/(TP+FP) :在预测为流失的用户中,预测正确的(实际也是流失)用户占比

召回率 = TP/(TP+FN) : 在实际为流失的用户中,预测正确的(预测为流失的)用户占比

F1值为精确率和召回率的调和均值,相当于这两个的综合评价指标。

通过输出的分析报告可以得出建立的预测模型的精确率为0.87,说明在预测为流失的用户中,实际流失的用户占87%,召回率也为0.87,说明实际为流失的用户中,预测为流失的占87%,F1值为0.87,说明模型的综合评价还不错。

ROC曲线和AUC值经常作为衡量一个模型拟合程度的指标,ROC曲线是对多个混淆矩阵的结果组合,每个混淆矩阵都会计算TPR(召回率)和FPR,FPR为实际为不流失的用户中,预测为流失的占比(FP/(FP+TN)),以FPR为x轴,TPR为y轴,就得到了ROC曲线图:

而AUC的值为ROC曲线下面的面积,如果这个模型十分精确,则ROC曲线经过(0,1)点,且AUC的值为1,不过在实际情形中,不会出现这么精确的模型,一般AUC的值在0.5到1之间,如果AUC=0.5或小于0.5,说明这个模型很差。

画ROC曲线的代码如下(小伙伴们可以直接copy跑一下):

from sklearn import svm, datasets  
from sklearn.metrics import roc_curve, auc  # 计算roc和auc  
from sklearn import cross_validationrandom_state = np.random.RandomState(0)  
n_samples, n_features = x.shape  
X = np.c_[x, random_state.randn(n_samples, 200 * n_features)]  
X_train, X_test, y_train2, y_test2 = cross_validation.train_test_split(X, y, test_size=.2,random_state=0)  
svm = svm.SVC(kernel='linear', probability=True,random_state=random_state) 
y_score = svm.fit(X_train, y_train2).decision_function(X_test)  
fpr,tpr,threshold = roc_curve(y_test, y_score) # 计算真正率和假正率  
roc_auc = auc(fpr,tpr) # 计算auc的值  plt.figure()  
lw = 2  
plt.figure(figsize=(6,6))  
plt.plot(fpr, tpr, color='darkorange',  lw=lw, label='ROC curve (area = %0.2f)' % roc_auc) ###假正率为横坐标,真正率为纵坐标做曲线  
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')  
plt.xlim([0.0, 1.0])  
plt.ylim([0.0, 1.05])  
plt.xlabel('False Positive Rate')  
plt.ylabel('True Positive Rate')  
plt.title('Receiver operating characteristic example')  
plt.legend(loc="lower right")  
plt.show()  

AUC的值为0.73,模型的拟合程度还有一定的提升空间。


除此之外,在评价模型时也会用到KS值,KS =max(TPR - FPR),KS值可以反映模型的最优区分效果。

在实际业务中,选择哪个指标作为依据是要根据应用场景的,比如用户流失预测案例,我们会更关注召回率,模型的目的要尽可能的找全实际将流失的用户,也就是实际流失的用户中,模型能预测到多少,这是评价这个模型结果的关键指标。所以在今后模型的优化中,我们要尽可能提高TPR。


【决策树可视化】

决策树最大的好处是可以生成可视化的树结构,有助于我们对模型的理解。

在可视化前我们需要下载graphviz并安装,安装完后打开将其bin目录添加到电脑的环境变量中,关于如何添加环境变量大家自行百度,操作非常简单。

接下来导入graphviz模块,绘制树结构并导出到外部文件。

from sklearn.tree import export_graphviz
with open('D:/dataset/userloss.dot','w')as f:f=export_graphviz(clf,feature_names=['pack_type','time_tranf','flow_tranf','pack_change','contract','asso_pur','group_user'],class_names=['loss','not loss'],filled=True, rounded=True,special_characters=True,out_file=f)

执行这个程序后会在指定的文件夹里生成一个dot文件,我们需要通过cmd命令进入到这个文件所在的目录下,然后通过‘ dot -Tpng 文件名 -o 输出文件名’的形式进行转化,将dot文件转为png的图片格式:

最后的可视化结果如下图:

放大看一下:

因为之前建模的时候设置的深度为5,所以树有5层,里面包含了分类的特征选择和对应的样本数,非常清晰直观。


【总结和思考】

  1. 从数据的探索性分析中我们可以看出,运营商关注的重点应该放在那些高价值的用户上,比如使用通话和流量比较多的,套餐金额比较大的这些用户。应采取相应的运营策略预防其流失,并且可以分析用户流失的主要原因,是优惠福利不满意还是竞争对手在某些方面比自己有优势。在这个通讯行业激烈竞争的时代,且手机用户数量已基本饱和,维护老用户比获取新用户更容易。
  2. 在预测模型的优化上,还有很多的改进之处,比如调整决策树的参数,特征的精细化筛选,或者采用多种算法进行模型评估。而且这个数据还有很多东西值得分析挖掘,用户的分类,用户的生命周期分析,各变量之间的交叉分析等等,今后还需对这个项目进行多方面的改进。

今天的用户流失预测案例就写到这啦~~bye。。

这篇关于机器学习实战---用户流失预测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/897656

相关文章

Golang操作DuckDB实战案例分享

《Golang操作DuckDB实战案例分享》DuckDB是一个嵌入式SQL数据库引擎,它与众所周知的SQLite非常相似,但它是为olap风格的工作负载设计的,DuckDB支持各种数据类型和SQL特性... 目录DuckDB的主要优点环境准备初始化表和数据查询单行或多行错误处理和事务完整代码最后总结Duck

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置