本文主要是介绍陈磊-大数据风控:拍拍信的AI视角,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
当前消费金融规模持续增长,风险控制的挑战也与日俱增。
陈磊老师现场分享
请参见一个风控系统的雏形框架,涵盖了用户贷前和贷后的流程。
信息是为决策提供主要支撑。在信贷业务中,信息四要素是姓名、身份证、手机号、银行卡号。
比如在信息采集上,我们会用AI的技术来提取相关信息,比如OCR,用拍照的方式来提供身份证、银行卡号的信息。这样做的优点显而易见——提高用户体验,效率快,避免伪造的情况。
整个闭环模式中,我们会根据不同的客户发起不同的策略,对于优质客户会提高额度,同时我们也会避免不良资产导致坏账而采取措施。
风险流程就是一个数据的流程,包含数据的采集,消化、回收、落地。
离开数据,风控就是无水之源。
传统的风控数据就是征信类的数据,很显然,这是远远不够的。那么新型时代的发展也让我们有新的思考,有哪些数据可以为我们的风控作补充。
理想化的数据就是覆盖率高,又和风险高度相关的。
这里我们借用金字塔模式来介绍的可用数据:
我们在数据大爆炸的年代,什么样的数据都可以使用。
但是怎么使用,确实一个挑战。
这些挑战来源于以下几个维度:
在传统银行的风控体系中,无论是采用机器学习,还是人工标记,都需要专家来看怎么去做,如何做才能发挥作用。
鉴于特征提取都是以人为主,这就难免会有局限性,很多高维度、宽广度的数据衍生出来新的特征就很难用经验进行捕捉。
下图是google在使用的一个专家+机器的特征工程模型框架:
-
左边是比较明显的广度特征,专家可以凭经验直接提取
-
中间广度加深度模型,一些不易解读的数据需要加工重构才能得以解读
-
右面是需要深层挖掘、层层解析后才会出来的特征
下面是一份团案信息图谱的案例:
信息图谱在业务上的所反映的问题,在于最原始的出发点是什么, 什么形式关联,在关联上有什么途径。一层关联比较简单,怎样能够发现多层关联才更为关键。
从聚合数据的输出与查询,可以看出一步关联与二次关联的数据联系。
而更深层次的特征查询,能对关系网络形态位置,把非结构化的关系网络转化为一般模型可以能吸收并消化的特征向量,从而检测到异常客户。
以上讲了很多特征提取。下面是阐述如何落地,从图中模型可以看出,主要流程是对不同的数据源做不同的数据提取,抽象到几个风险因子,进而提炼出综合风险指数,化繁为简。
在风控体系中,我们追求准确性,同时也强调健壮性。
准确性是指特征的抽象与提取,那么健壮性就是指时间维度上的有效性、场景迁移的可扩展性。
原文发布时间为:2017-10-24
本文作者:陈磊
本文来自云栖社区合作伙伴“中生代技术”,了解相关信息可以关注“中生代技术”微信公众号
这篇关于陈磊-大数据风控:拍拍信的AI视角的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!