Python银行授信响应模型实战

本文主要是介绍Python银行授信响应模型实战，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、数据介绍及预处理

1、数据介绍

数据说明

2、数据分析

二、模型构建及评估

1、模型训练

三、划重点

少走10年弯路

在金融信贷领域中，授信、定价等产品信息会直接影响客户是否用信，此外客户自身的需求程度、竞品授信定价信息、自身经济能力、家庭环境等等因素都会影响用信行为。对于放贷机构而言，在授信额度/定价允许的范围内（如额度越高、风险也会越高），希望能提高整体用信率、从而增加业务规模，那么如果能提前预测出用户的用信概率，就可以用于指导运营活动、授信定价策略，促进业务增长。

一、数据介绍及预处理

1、数据介绍

数据来源某比赛网站（下图仅为部分字段），数据相对简单，除了地址编码外均为数值型变量，包括年龄、收入水平、家庭地址、学历等个人基本信息，以及是否有信用卡、是否有网银、信用卡指支出额等银行信息，Y标签为是否接受金融机构提供的个人贷款文末获取数据集

数据说明

ID	客户ID
Age	客户年龄（以完成年份计）
Experience	工作经验/年
Income	客户年收入（000美元）
ZIPCode	家庭地址邮政编码。
Family	客户的家庭规模
CCAvg	每月平均信用卡支出（/1000美元）
Education	教育水平。1：本科生；2：高中；3：专科
Mortgage	房屋抵押价值。（/1000美元）
Securities Account	客户在银行是否有证券账户
CD Account	客户在银行是否有存款证明（CD）账户
Online	客户是否使用网上银行设施
CreditCard	客户是否使用环球银行发行的信用卡
Personal Loan	该客户是否接受了提供的个人贷款

2、数据分析

（1）Y变量分布统计

统计是否接受贷款的标签分布如下，可以看到5000样本中仅有9.6%接受贷款，即用信率仅有9.6%

（2）IV统计

首先针对是否接受贷款的标签计算特征IV值如下图，收入、月度信用卡支出的IV值明显高于其他特征，因此可以查看一下变量分布情况。


import toad
def iv_miss(df,var_list,y):df_tmp=df[df[y].notnull()].copy()iv_all=toad.quality(df_tmp[var_list+[y]], target=y, indicators = ['iv','unique'])[['unique','iv']]miss_per=pd.DataFrame(df[var_list].isnull().sum()/(df.shape[0]))miss_per.columns=['缺失率']result=pd.concat([miss_per,iv_all],axis=1)return result.sort_values('iv',ascending=False)df_iv=iv_miss(df,fea_list,'Personal Loan')
df_iv

（3）变量分布分析

对收入、月度信用卡支出两个特征统计频数分布分别如下，可以看到在特征分布上的区分比较明显，尤其是接受/拒绝对应收入的分布很大。

二、模型构建及评估

1、模型训练

使用lightGBM构建二分类模型，按照8:2的比例划分训练集、测试集，然后使用ks、auc进行效果评估，结果如下、auc轻松达到0.99

def init_params():params_lgb={'boosting_type': 'gbdt','objective': 'binary','metric':'auc','n_jobs': 8,'n_estimators':1300,'learning_rate': 0.03,'max_depth':4,'num_leaves': 12,'max_bin':255, 'subsample_for_bin':100000, 'min_split_gain':3,'min_child_samples':300,'colsample_bytree': 0.8,'subsample': 0.8,'subsample_freq': 1,   'feature_fraction_seed':2,'bagging_seed': 1,'reg_alpha':2,'reg_lambda':2,'scale_pos_weight':1,'silent':True,'random_state':1,'verbose':-1, # 控制模型训练过程的输出信息，-1为不输出信息}return params_lgbdef ks_auc_value(y_true,df,model):y_pred=model.predict_proba(df)[:,1]fpr,tpr,thresholds= roc_curve(list(y_true),list(y_pred))ks=max(tpr-fpr)auc= roc_auc_score(list(y_true),list(y_pred))return ks,aucdef model_train_sklearn(train,y_name,fea_list):params=init_params()x_train,x_test, y_train, y_test =train_test_split(train[fea_list],train[y_name],test_size=0.2, random_state=123)model=lgb.LGBMClassifier(**params)model.fit(x_train,y_train,eval_set=[(x_train, y_train),(x_test, y_test)])train_ks,train_auc=ks_auc_value(y_train,x_train,model)test_ks,test_auc=ks_auc_value(y_test,x_test,model)dic={'train_good':(y_train.count()-y_train.sum()),'train_bad':y_train.sum(),'test_good':(y_test.count()-y_test.sum()),'test_bad':y_test.sum(),'train_ks':train_ks,'train_auc':train_auc,'test_ks':test_ks,'test_auc':test_auc,}return dic,modelmodel_result,model=model_train_sklearn(df,'Personal Loan',fea_list)
model_result