想要了解大数据信用风险评分,这篇文章值得细读!(上)

2024-05-07 14:58

本文主要是介绍想要了解大数据信用风险评分,这篇文章值得细读!(上),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

信用风险评分模型是银行等信贷发放机构应用较为成熟的风险计量工具。早在20世纪40年代,美国有些银行就开始尝试性研究信用评分方法,用于快速处理大量信贷申请。


1956年,工程师BillFair和数学家EarlIsaac共同发明了著名的FICO评分方法。该方法基本以Logistic回归方法为技术核心,是当前业界应用最成熟的信用风险评分模型。在20世纪60~80年代,随着信息技术的进步和业务的快速发展,信用评分模型在信用卡、消费信贷、住房抵押贷款和小企业贷款中得到了广泛应用。


近几年来,随着大数据和互联网金融的兴起,某些新颖的机器学习算法走出了学术领域,开始在部分互联网金融机构的信用风险评分模型中得到应用。以Zestfinance公司为例,该公司将机器学习算法应用于信用风险评分模型中,这是大数据信用风险评分模型领域的早期探索之一,也是业界讨论热点。然而,在讨论基于大数据的信用评分模型过程中,经常见到的是出于公关需要的炒作、宣传文章,对技术方法本身的讨论较少,不利于应用方正确辨析和恰当应用大数据信用风险评分模型。


本文比对、分析了传统信用风险评分模型和基于大数据的信用风险评分模型的差异。由于文章篇幅较长,下期我们还将刊文总结分析大数据信用风险评分模型的优缺点,以及有若干建议告诉读者。


1


基于大数据的信用风险评分模型和传统信用风险评分模型的差异分析


互联网金融机构基于大数据的信用风险评分模型和传统金融机构采用的信用风险评分模型在数据来源、变量生成、模型方法、应用方式、应用目标上均存在一定差异,主要体现在以下几方面。


1 数据来源及数据特征的差异


传统信用风险评分模型的数据来源主要是三大类:客户向金融机构提交的个人申请信息、金融机构内部积累的客户历史数据、人民银行征信中心等外部机构提供的数据。


数据的主要特点是数据质量和信息价值密度高、维度相对单一、可验证性较差、数据采集渠道规范性较好。传统金融机构基于传统的高价值密度的数据,研发出各类信用风险评分模型,实现对客户信用风险的评价,已经成为成熟的、规范化的运行方式。


大数据时代的客户信息来源更加多元化,主要包括各互联网金融机构掌控的生态体系内积累的客户信息,以及通过外部各种渠道采集的客户信息。其数据特征包括:


一是数据较为稀疏。数据采集渠道的多元化和非标准化,导致客户信息缺失率较高,同一客户不同维度的信息经常不完整,最终体现为数据的稀疏性。


二是价值密度相对较低。单项数据的信用评估价值密度较低,缺少传统金融机构拥有的含金量较高的征信类数据、历史违约数据。


三是数据覆盖维度广。部分机构通过各种渠道积累了涉及用户行为各方面的数据,如不少机构采集了覆盖衣、食、住、行、娱乐、购物、通信等各种来源的信息。


四是单变量风险区分能力弱。分析发现,尽管市场上常见的大数据机构采集了各种维度的客户行为信息,对客户总体形象的刻画更详细,但这类数据并未专注于客户信用风险,往往缺少内部征信数据、外部征信数据、个人资产评估等有强区分能力的变量。大数据机构采集的客户衣食住行、社交类等信息,在信用风险评估领域大多属于弱区分能力变量,需要汇集、整合大量信息以后才能实现区分效果的实质性提升。


五是数据来源规范性不足,不少大数据采集机构通过灰色渠道采集个人隐私数据,数据可持续性不佳。


2 模型变量生成和挑选方式的差异


不同的数据特征直接影响到模型变量的生成、挑选方式。传统信用风险评分模型候选变量数量较少,单一模型候选变量常在数百至数千个数量级。进入模型的变量往往在数十个数量级。模型变量数量较少,客观上使得数据可以经过多番清洗,清洗后的数据质量相对较好;同样由于变量较少,传统金融机构往往在变量挑选过程中开展多轮定量和定性分析。在筛选模型变量的过程中,除了参考变量的区分能力等定量维度,往往还需要参考机构内部业务专家的意见。


大数据时代,由于原始数据体量较大,通过变量本身衍生、变量之间衍生后产生更多候选变量。在单个模型内,相近的候选变量可多达数百乃至上万个。由于缺乏专家团队支持,通常采用挑选规则等方式自动化挑选候选变量,人工干预和专家审核较少。同时,由于模型变量数量庞大和数据质量较差,容易出现模型变量未经严格数据清洗程序就进入模型的情况,对模型表现造成影响。


3 建模技术方法的差异


不同的数据特征直接影响到建模技术方法的选择。传统的信用风险评分模型以Logistic回归方法为核心。Logistic方法处理二分类因变量的数据有独特的优势,同时模型关于数据分布的假定较弱,在数据为非正态分布时,也有较好的表现。因此,该方法是当前国内外金融机构、征信机构最广泛应用的方法。


大数据信用风险评分模型更多采用了神经网络(NeuralNetwork)、支持向量机(SupportVectorMachine)、随机森林(RandomForest)等算法。这些机器学习方法在解决特定问题时具有优势,如有些方法适用于处理稀疏的数据;有些能更好地解决模型过度拟合问题;有些能处理大量的输入变量,预测准确度较高,能有效提升模型表现。和传统的Logistic方法相比,每类机器学习方法都有自己的特色,但并未完全超越传统方法。


4 模型技术架构的差异


传统信用风险评分模型大多采用单层模型技术架构,即自变量因子通过WOE转换以后计算产生评分和违约概率。在这种技术架构下,传统模型运行维护相对较为简单,但模型少数关键变量直接影响模型的表现。一旦少数变量导致模型表现下降,需要通过研发新模型及时替换原有的模型。


大数据信用风险评分模型的模型结构具有两大特点:一是采用母子模型结构。即先通过子模型将稀疏的大数据信息加工成密集信息,再将子模型的输出信息作为母模型的输入变量,将信息逐层加工,形成模型嵌套模型的技术架构。子模型一般采用神经网络、随机森林、支持向量机等机器学习算法,母模型采用传统的、成熟的Logistic回归等技术方法,实现模型应用框架不发生太大变化的情况下,具有更好的区分效果。


二是采用动态挑战者模型挑选和淘汰机制。在母子模型架构下,假设进入运行的子模型有100个,备选模型有200个,一旦在运行的子模型中有效果下降至某个最低阈值的模型,则会被剔除,而从备选的200个模型中挑选效果较好的替补模型进入到子模型序列中。这种动态调整机制在实现总体模型运行效果相对稳定的同时,也给模型的运行维护带来了较高的复杂度。


5 模型上线运行方式的差异


模型技术架构的差异直接导致模型上线运行方式的差异。传统的信用风险评分模型通常将单一模型嵌入到在业务流程系统中,直接用于信贷决策。部分成熟的欧美银行可以同步运行2~3个挑战者模型,当单一模型表现下降的时候,实现及时切换。


大数据信用风险评分模型中,数百个模型同步上线并行计算成为可能。这对部署在信贷业务流程系统中的决策引擎和数据环境提出了更高的要求。如决策引擎需要采用分布式架构,以实现海量变量的同步计算,要求提前在数据环境中部署海量的原始变量和建模变量,以保障模型在切换时随时有新变量可供替换。


6 模型应用方式的差异


传统的信用风险评分模型本质上是对信贷专家决策过程的模拟,银行等传统金融机构在应用信用评分模型时通常采用人机结合的方式,对信息比较充分的客户,根据评分和规则实现自动化审批;对信息不充分的客户,由专家进行人工审批决策。


互联网金融机构倾向于应用大数据信用风险评分模型,除了极少数情况(如信贷额度较大)外,均采用全自动化决策方式,一般不进行人工干涉。


上述差异产生的原因主要包括:一是在传统金融机构内部,信用评分模型是整个信贷决策流程的一部分,完全采用模型决策代替人工决策,需要信贷决策的利益相关方逐步接受和适应;


二是传统机构对部分客户掌握信息不够丰富,对部分灰色区域的客户风险判断依据不足,需要结合审批人的专家判断作为补充;


三是传统金融机构授信额度相对更大,在客户信息掌握不充分的情况下,潜在损失更大,而互联网金融机构授信额度普遍较低,完全通过模型进行信贷决策产生的潜在损失较小。


7 模型应用目标的差异


传统的信用风险评分模型目标和大数据信用风险评分模型目标存在差异。简单地说,可以把传统模型盯住的目标变量认定为狭义的信用,大数据模型盯住的目标变量认定为广义的信用。


传统信用风险评分模型的目标变量是客户信贷违约可能性,核心是预测客户在某个信贷产品上的违约概率。大数据信用风险评分模型的目标变量更多反映的是广义上客户信用品质,并未专注于客户信贷违约预测。因此,大数据信用评分模型也应用于客户信贷评价以外的领域。


8 模型开发和运行效率的差异


传统的信用风险评分模型由于结构相对简单,数据来源相对固定,模型开发和运行所需的计算环境和性能要求相对单一。大数据信用风险评分模型,无论在模型训练还是应用环节,均需要海量计算,对存储和计算性能要求较高。

这篇关于想要了解大数据信用风险评分,这篇文章值得细读!(上)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/967682

相关文章

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

MySQL中删除重复数据SQL的三种写法

《MySQL中删除重复数据SQL的三种写法》:本文主要介绍MySQL中删除重复数据SQL的三种写法,文中通过代码示例讲解的非常详细,对大家的学习或工作有一定的帮助,需要的朋友可以参考下... 目录方法一:使用 left join + 子查询删除重复数据(推荐)方法二:创建临时表(需分多步执行,逻辑清晰,但会

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

不删数据还能合并磁盘? 让电脑C盘D盘合并并保留数据的技巧

《不删数据还能合并磁盘?让电脑C盘D盘合并并保留数据的技巧》在Windows操作系统中,合并C盘和D盘是一个相对复杂的任务,尤其是当你不希望删除其中的数据时,幸运的是,有几种方法可以实现这一目标且在... 在电脑生产时,制造商常为C盘分配较小的磁盘空间,以确保软件在运行过程中不会出现磁盘空间不足的问题。但在

Java如何接收并解析HL7协议数据

《Java如何接收并解析HL7协议数据》文章主要介绍了HL7协议及其在医疗行业中的应用,详细描述了如何配置环境、接收和解析数据,以及与前端进行交互的实现方法,文章还分享了使用7Edit工具进行调试的经... 目录一、前言二、正文1、环境配置2、数据接收:HL7Monitor3、数据解析:HL7Busines

Mybatis拦截器如何实现数据权限过滤

《Mybatis拦截器如何实现数据权限过滤》本文介绍了MyBatis拦截器的使用,通过实现Interceptor接口对SQL进行处理,实现数据权限过滤功能,通过在本地线程变量中存储数据权限相关信息,并... 目录背景基础知识MyBATis 拦截器介绍代码实战总结背景现在的项目负责人去年年底离职,导致前期规