一个神奇的改良信用风险评分和验证的R包(creditR 的基于实践的导论)

2023-10-31 03:50

本文主要是介绍一个神奇的改良信用风险评分和验证的R包(creditR 的基于实践的导论),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:Ayhan Dis 翻译:张睿毅 校对:丁楠雅

本文约3200字,建议阅读10+分钟。

本文介绍了关于creditR包的相关基础知识,并通过使用creditR深入研究一个全面的例子进行实际操作。

 

背景介绍

机器学习正在扰乱多个不同的行业。受影响最大的行业之一就是:金融业

机器学习的主要目标是欺诈检测、客户细分、员工或客户保留等。我们将在本文中介绍信用风险评分。

“信用评分是放款人和金融机构为获得一个人的信用度而进行的统计分析。出借人通过信用评分决定是否延长或拒绝信用。”

--投资银行

机器学习算法通常被开发成挑战者模型,因为这是一个需要满足法规要求的领域。这让我思考——我如何才能让从事该领域工作的专业人员更容易理解这些模型?

640?wx_fmt=png

creditR 包就应运而生了!它允许你在机器学习应用程序之前轻松创建信用风险评分的基本模型。此外它还含有一些可用于验证这些进程的函数。

该包旨在促进变量分析、变量选择、模型开发、模型校准、评级尺度开发和模型验证方法的应用。通过定义的函数,这些方法可以快速应用于所有建模数据或特定变量。

在本文中,我们将首先了解creditR包的基本知识。然后,我们将通过使用creditR深入研究一个全面的例子进行实际操作。

注:该方案是为信贷风险专业人士提供的。使用该软件包需要具备信贷风险评分方法的基本知识。

 

目录

一、为什么要用creditR?

二、开始使用creditR

三、creditR内部的一系列函数

四、creditR包的应用

 

一、为什么要用creditR

随着对该领域机器学习模型的需求增加,对信贷风险模型的认识正在迅速转变。然而,许多监管者对机器学习技术仍然非常谨慎。可以推测:在这个转换阶段,机器学习算法将与传统方法一起进行。

一旦机器学习算法在挑战领域惯例的同时产生了比传统方法更强大的结果,监管者就可以信任。此外,解释机器学习算法的新方法可能有助于创建一个更透明的过程。

creditR软件包既可以自动使用传统方法,也可以验证传统和机器学习模型。

二、开始使用creditR

为了安装creditR包,你应该安装devtools包。可以通过运行以下代码安装devtools包:

 

install.packages("devtools", dependencies = TRUE)

可以使用devtools包中的“install_github”功能安装creditr包:

 

library(devtools)
devtools::install_github("ayhandis/creditR")
library(creditR)

三、creditR内的一系列函数

包下面列出了可用的功能:

ls("package:creditR")

输出:

 

640?wx_fmt=png

 

四、creditR包的一项应用

我们已经熟悉了理论方面的内容。现在我们开始实践吧!

下面分享了creditR的一个示例应用程序,研究如何使用包中提供的功能执行信贷风险评分中的一些常见步骤。

在编写本例时,考虑了实际的做法。

一般应用程序的结构分为两个主题,即建模和模型验证,在注释行中可以看到有关相应代码所做操作的详细信息。

本文中只共享了重要的输出。

这个R脚本旨在使creditR包更容易理解。获得高精度模型不在本研究范围内。

 

# Attaching the library
library(creditR)


#Model data and data structure
data("germancredit")
str(germancredit)

#Preparing a sample data set
sample_data <- germancredit[,c("duration.in.month","credit.amount","installment.rate.in.percentage.of.disposable.income", "age.in.years","creditability")]

#Converting the ‘Creditability’ (default flag) variable into numeric type
sample_data$creditability <- ifelse(sample_data$creditability == "bad",1,0)

#Calculating the missing ratios
missing_ratio(sample_data)

输出:

 

#Splitting the data into train and test sets
traintest <- train_test_split(sample_data,123,0.70)
train <- traintest$train
test <- traintest$test

WOE变换是一种结合变量与目标变量的关系将变量转化为分类变量的方法。下面的“WoeRules”对象包含WOE的规则。

在woe.binning.deploy 函数的帮助下,规则得以在数据集上运行。我们需要的变量通过woe.get.clear.data函数分配给“train-woe”对象。

 

#Applying WOE transformation on the variables
woerules <- woe.binning(df = train,target.var = "creditability",pred.var = train,event.class = 1)
train_woe <- woe.binning.deploy(train, woerules, add.woe.or.dum.var='woe')

#Creating a dataset with the transformed variables and default flag
train_woe <- woe.get.clear.data(train_woe,default_flag = "creditability",prefix = "woe")

#Applying the WOE rules used on the train data to the test data
test_woe <- woe.binning.deploy(test, woerules, add.woe.or.dum.var='woe')
test_woe <- woe.get.clear.data(test_woe,default_flag = "creditability",prefix = "woe")

信息值和单变量基尼系数可以作为变量选择方法。一般来说,IV的阈值为0.30,单变量基尼的阈值为0.10。

 

#Performing the IV and Gini calculations for the whole data set
IV.calc.data(train_woe,"creditability")

输出:

640?wx_fmt=png

 

Gini.univariate.data(train_woe,"creditability")

输出:

 

640?wx_fmt=png

 

#Creating a new dataset by Gini elimination. IV elimination is also possible
eliminated_data <- Gini_elimination(train_woe,"creditability",0.10)
str(eliminated_data)

输出:

 

640?wx_fmt=png

现实生活中有太多的变量无法用相关矩阵来管理,因此常使用聚类以确定具有相似特征的变量。由于变量的数量很少,这种特殊的聚类示例没有意义,但通常情况下,该方法在具有大量变量的数据集中非常有用。

 

#A demonstration of the functions useful in performing Clustering
clustering_data <- variable.clustering(eliminated_data,"creditability", 2)
clustering_data

输出:

640?wx_fmt=png

 

# Returns the data for variables that have the maximum gini value in the dataset
selected_data <- variable.clustering.gini(eliminated_data,"creditability", 2)

在某些情况下,集群的平均相关性很重要,因为集群的数量可能设置不正确。因此,如果集群具有较高的平均相关性,则应该对其进行详细检查。相关性值(在集群1中的唯一变量)是NaN。

 

correlation.cluster(eliminated_data,clustering_data,variables = "variable",clusters = "Group")

输出:

 640?wx_fmt=png

包含在数据集中的变量形成了一个模型。当模型摘要检查变量时,这些变量似乎是有意义的。然后,借助于“woe.glm.feature.importance”函数,变量的权重得以计算。实际上,权重是根据单个单位变化对概率的影响来计算的。

 

#Creating a logistic regression model of the data
model= glm(formula = creditability ~ ., family = binomial(link = "logit"),  data = eliminated_data)
summary(model)

输出:

640?wx_fmt=png

 

#Calculating variable weights
woe.glm.feature.importance(eliminated_data,model,"creditability")

输出:

640?wx_fmt=png

 

#Generating the PD values for the train and test data
ms_train_data <- cbind(eliminated_data,model$fitted.values)
ms_test_data <- cbind(test_woe[,colnames(eliminated_data)], predict(model,type = "response", newdata = test_woe))
colnames(ms_train_data) <- c("woe.duration.in.month.binned","woe.age.in.years.binned","woe.installment.rate.in.percentage.of.disposable.income.binned","creditability","PD")
colnames(ms_test_data) <- c("woe.duration.in.month.binned","woe.age.in.years.binned","woe.installment.rate.in.percentage.of.disposable.income.binned","creditability","PD")

在现实生活中,机构使用评级尺度而不是连续的PD值。由于一些监管问题或为了适应不断变化的市场/投资组合条件,模型会根据不同的中心趋势进行校准。

包中含有回归和贝叶斯校正方法。利用“calibration object$calibration_formula”代码,可以得到嵌入企业系统中进行校准的数值函数作为输出。

 

#An example application of the Regression calibration method. The model is calibrated to the test_woe data
regression_calibration <- regression.calibration(model,test_woe,"creditability")
regression_calibration$calibration_data
regression_calibration$calibration_model
regression_calibration$calibration_formula

输出:

640?wx_fmt=png

在评定量表上采用贝叶斯校正方法。借助“master.scale”函数,我们可以轻松创建评分量表。然而,在现实生活中,评级尺度只能在多次尝试之后创建。

摘要将添加到输出中。运行R脚本可以看到详细信息。此外,本例的目的仅仅是在本研究范围内引入函数,因此PD值不会单调增加。

 

#Creating a master scale
master_scale <- master.scale(ms_train_data,"creditability","PD")
master_scale

输出:

640?wx_fmt=png

为了应用贝叶斯校正,在数据集中创建了分数变量。然后将评分表校准到5%的中心趋势。

 

#Calibrating the master scale and the modeling data to the default rate of 5% using the bayesian calibration method
ms_train_data$Score = log(ms_train_data$PD/(1-ms_train_data$PD))
ms_test_data$Score = log(ms_test_data$PD/(1-ms_test_data$PD))
bayesian_method <- bayesian.calibration(data = master_scale,average_score ="Score",total_observations = "Total.Observations",PD = "PD",central_tendency = 0.05,calibration_data = ms_train_data,calibration_data_score ="Score")

#After calibration, the information and data related to the calibration process can be obtained as follows
bayesian_method$Calibration.model
bayesian_method$Calibration.formula

输出:

 

640?wx_fmt=png

在实际应用中,对于不熟悉风险管理的员工来说,很难理解概率的概念。因此,需要创建缩放分数。这可以通过使用“scalled.score”函数来实现。

 

#The Scaled score can be created using the following function
scaled.score(bayesian_method$calibration_data, "calibrated_pd", 3000, 15)

在建模阶段之后,进行模型验证,以验证不同的期望,如模型的准确性和稳定性。在现实生活中,定性验证过程也被应用。

注:模型校准仅用于说明。模型验证测试按如下所示通过原始主尺度进行。

在逻辑回归模型中,应考虑多重共线性问题。虽然使用了不同的阈值,但大于5的vif值表示存在此问题。

 

#Calculating the Vif values of the variables.
vif.calc(model)

输出:

640?wx_fmt=png

一般来说,基尼系数的可接受下限为0.40。但是,这可能会因模型类型而异。

 

#Calculating the Gini for the model
Gini(model$fitted.values,ms_train_data$creditability)

输出:

0.3577422

 

#Performing the 5 Fold cross validation
k.fold.cross.validation.glm(ms_train_data,"creditability",5,1)

640?wx_fmt=png


输出:

 

#The KS test is performed on the distributions of the estimates for good and bad observations
Kolmogorov.Smirnov(ms_train_data,"creditability","PD")
Kolmogorov.Smirnov(ms_test_data,"creditability","PD")

评分卡通常在长期基础上进行修订,因为这一过程会产生重要的运营成本。因此,模型的稳定性会降低修改的必要性。此外,机构希望模型稳定,因为这些模型被用作许多计算的输入,如减值、资本、风险加权资产等。

系统稳定性指标是用来衡量模型和变量稳定性的一种测试。大于0.25的SSI值表明变量稳定性受到损害。

 

#Variable stabilities are measured
SSI.calc.data(train_woe,test_woe,"creditability")

输出:

640?wx_fmt=png

由于主量表的主要目的是区分风险,所以HHI测试测量主量表的浓度。超过0.30 HHI值表示浓度高。这可能是由于建模阶段或主比例的创建不正确。

 

#The HHI test is performed to measure the concentration of the master scale
Herfindahl.Hirschman.Index(master_scale,"Total.Observations")

输出:

0.1463665

在“anchor.point”函数的帮助下,测试默认速率是否与预期水平的平均PD兼容。

 

#Performing the Anchor point test
Anchor.point(master_scale,"PD","Total.Observations",0.30)

输出:

640?wx_fmt=png

卡方检验也可用作校准试验。“chisquare.test”函数可用于在指定的置信水平下执行测试。

 

#The Chi-square test is applied on the master scale
chisquare.test(master_scale,"PD","Bad.Count","Total.Observations",0.90)

输出:

640?wx_fmt=png


二项检验也可以作为一种校准检验。单尾二项检验通常用于IRB模型,而双尾检验则用于IFRS 9模型。但除IRB外,双尾检验更方便通用。

 

#The Binomial test is applied on the master scale
master_scale$DR <- master_scale$Bad.Count/master_scale$Total.Observations
Binomial.test(master_scale,"Total.Observations","PD","DR",0.90,"one")

输出:

640?wx_fmt=png

需要管理建模和模型验证,以确保连续性。当R环境被正确管理时,这个可管理的建模和验证环境可以很容易地由机构提供。

机构正在使用开放源代码环境(如具有大数据技术的R或Python)设计更高效的业务流程。从这个角度来看,creditR为建模和验证方法的应用提供了组织上的便利。

 

最后几点

creditR软件包为用户提供了许多执行传统信用风险评分的方法,以及一些用于测试模型有效性的方法,这些方法也可应用于ML算法。此外,由于该包在传统方法的应用中提供了自动化,因此可以降低这些过程的操作成本。

此外,可以将这些模型与机器学习模型进行比较,以证明ML模型也满足监管要求,满足这些要求是ML模型应用的前提。

修复Bug以及有关作者的信息


640?wx_fmt=png

Ayhan Dis是一名高级风险顾问。他负责咨询项目,如国际财务报告准则9/IRB模型开发和验证,以及高级分析解决方案,包括欺诈分析、客户分析和风险分析等领域的ML/DL,熟练使用Python、R、Base SAS和SQL。

在他的工作历程中,他使用过各领域如Twitter、天气、信用风险、电时价格、股票价格的数据和客户数据,为银行、能源、保险、金融和制药行业的客户提供解决方案。

作为一个数据科学爱好者,他认为,建立一个人的技术能力并不是数据科学真正的刺激,而是将数据科学与大数据融合在一起,通过人工智能揭示与商业过程相结合的洞察力。

请通过下面共享的电子邮件地址通知作者你在使用包时遇到的错误。


  • https://github.com/ayhandis

  • https://www.linkedin.com/in/ayhandis/

  • disayhan@gmail.com


原文标题:

Hands-On Introduction to creditR: An Amazing R Package to Enhance Credit Risk Scoring and Validation

原文链接:

https://www.analyticsvidhya.com/blog/2019/03/introduction-creditr-r-package-enhance-credit-risk-scoring-validation-r-codes/


译者:张睿毅,北京邮电大学大二物联网在读。

转自:数据派THU 公众号;

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

END

合作请加QQ:365242293  

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

640?wx_fmt=png

这篇关于一个神奇的改良信用风险评分和验证的R包(creditR 的基于实践的导论)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/312610

相关文章

Docker集成CI/CD的项目实践

《Docker集成CI/CD的项目实践》本文主要介绍了Docker集成CI/CD的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、引言1.1 什么是 CI/CD?1.2 docker 在 CI/CD 中的作用二、Docke

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

C++ | Leetcode C++题解之第393题UTF-8编码验证

题目: 题解: class Solution {public:static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num &

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目: 题解: static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return

easyui同时验证账户格式和ajax是否存在

accountName: {validator: function (value, param) {if (!/^[a-zA-Z][a-zA-Z0-9_]{3,15}$/i.test(value)) {$.fn.validatebox.defaults.rules.accountName.message = '账户名称不合法(字母开头,允许4-16字节,允许字母数字下划线)';return fal

easyui 验证下拉菜单select

validatebox.js中添加以下方法: selectRequired: {validator: function (value) {if (value == "" || value.indexOf('请选择') >= 0 || value.indexOf('全部') >= 0) {return false;}else {return true;}},message: '该下拉框为必选项'}

Prometheus与Grafana在DevOps中的应用与最佳实践

Prometheus 与 Grafana 在 DevOps 中的应用与最佳实践 随着 DevOps 文化和实践的普及,监控和可视化工具已成为 DevOps 工具链中不可或缺的部分。Prometheus 和 Grafana 是其中最受欢迎的开源监控解决方案之一,它们的结合能够为系统和应用程序提供全面的监控、告警和可视化展示。本篇文章将详细探讨 Prometheus 和 Grafana 在 DevO

springboot整合swagger2之最佳实践

来源:https://blog.lqdev.cn/2018/07/21/springboot/chapter-ten/ Swagger是一款RESTful接口的文档在线自动生成、功能测试功能框架。 一个规范和完整的框架,用于生成、描述、调用和可视化RESTful风格的Web服务,加上swagger-ui,可以有很好的呈现。 SpringBoot集成 pom <!--swagge