秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用

本文主要是介绍秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用(附PPT+视频) | 硬创公开课

中国消费金融市场的用户大致可以划分为四种类型:1.白领和自雇人群;2.蓝领;3学生;4.农民。其中,前两者为主力消费人群,市场规模十分广阔。白领和自雇人群往往拥有央行征信报告,主要使用银行信用卡,以及BAT和京东等大型企业提供的消费金融产品。而多达2.5亿的蓝领则主要为薄文件人群(央行征信报告能够采集到的数据非常少),他们具有很强的消费冲动,是互联网金融产品的主要目标。而由于传统银行放款周期过长,无法满足他们的需求;即时高效的互联网消费金融产品也就成了他们的最佳选择。

那么,互联网消费金融企业如何才能抓住这一市场机遇,从广大薄文件人群中寻找优质客户、提高用户黏性,同时降低风险,将收益最大化呢?本期硬创公开课,雷锋网邀请到了秦苍科技数据科学家沈赟博士,为大家分享AI在消费金融产品优化以及风险控制中的应用。

内容介绍:

本次公开课包含以下内容:

1. 根据用户多维弱变量数据的综合信用评分

2. 社交网络算法应用于金融反欺诈

3.基于机器学习模型的额度策略

4 基于机器学习的金融产品设计

5.人工智能应用的前沿探索:用户生命周期管理

嘉宾介绍

秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用(附PPT+视频) | 硬创公开课

沈赟博士,秦苍科技数据科学家,具有9年金融领域机器学习研究开发经验。拥有德国柏林工业大学电子信息科学与技术博士学位、上海交通大学计算机科学与技术硕士学位、德国柏林工业大学电子信息科学与技术硕士学位、上海交通大学计算机科学与技术本科学位。

曾在Journal of Machine Learning Research, Neural Computation, SIAM Journal on Control and Optimization等机器学习、神经网络以及应用数学等领域的顶级期刊和会议上发表多篇学术论文。

曾任职德国LOBSTER Data 量化分析师,分析处理高频Nasdaq数据,辅助完成产品上线。现担任秦苍科技数据科学家,率领团队构建基于机器学习的信用评分、额度策略、反欺诈以及用户生命周期内的自动化动态调频系统等。成功打造了基于用户数据1秒内完成信用评分的评分机制,相比传统模型提高了25%AUC。

(本期公开课完整视频,共51分钟)

以下为雷锋网对嘉宾分享内容的实录精编。

风险控制

信用评分

风险控制是消费金融领域的一大核心问题,信用评分机制则是控制风险的有效手段。信用评分机制可以简化为分类问题,即根据用户历史上的行为,来判断他是“好人”还是“坏人”。假如一个用户逾期几个月,那么我们就认定他是“坏人”,若没有逾期行为,则为“好人”。

秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用(附PPT+视频) | 硬创公开课

我们采用了机器监督学习中的经典分类算法来进行用户信用评分。评分过程可以分为以下几步:

数据导入和清洗。因为数据采集过程中可能会采集到脏数据,此外,我们还需要剔除部分不可用、不可计算的数据,以及空数据。

特征提取。采集数据时,我们通常会采集多达一万多个数据点,然后通过特征提取的方式提取几百个特征点。

模型选择。在模型中,我们会运用到一些机器学习算法,比如逻辑回归、随机森林、AdaBoost、XgBoost、神经网络等。选择模型时,我们会采取cross validation的方式,同时运用基于ROC的AUC来决策模型的好坏。

决策。决策过后,我们可以观察用户表现,重新提取数据训练模型,形成正向反馈循环。也就是说,随着收集到更多、更新的数据,我们的模型将不断迭代和进化。

从应用结果来看,AI决策相比传统手工开发的算法决策,可以把决策时间从分钟级别缩短至0.1秒,同时降低25%的坏账率,每年为企业节约高达上千万的成本。

秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用(附PPT+视频) | 硬创公开课

在大家熟知的,使用深度神经网络解决图像识别和云识别的问题中,一般而言,采集的数据越多,训练出的模型就越好。但金融领域不同,金融数据具有非常强的时间效应,越靠近现在的数据越具备预测效力。并不是说拥有的数据越多,模型效果就越好。因此,不断定期更新模型至关重要。

模型是基于历史数据训练出来的,在未来不发生异常事件的前提下,可以保持预测效力;一旦出现异常事件,模型的效力就有可能下降。为了保证系统预测的稳定性,我们会同时开发多个模型彼此竞赛。

秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用(附PPT+视频) | 硬创公开课

比方说,我们训练出了三个模型,分配给他们不同的流量:模型2流量最高,模型1次之;模型3最低。一段时间后,我们可以收集到各个模型的表现,根据其准确率动态调节流量。如果某个模型表现好,就多分配一些流量,反之则减少流量。如果这个模型的效力长时间内持续下降,就将逐渐被淘汰,与此同时会有新的模型加入竞争。总而言之,多模型并行,择优进化,对于保持系统的稳定性十分重要。

通过社交网络分析反欺诈

消费金融产品风险控制中,另一个非常重要的部分是反欺诈。我们反欺诈的主要手段是社交网络分析。用于社交网络分析的数据通常基于手机号码,比方说手机紧急联系人、通联纪录、通讯录等。

秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用(附PPT+视频) | 硬创公开课

上面是一张社交网络关系结构示意图,图中每个点代表一个用户,通过线段连接的两个点互为手机联系人。其中某些用户可以通过一个共同的节点联系到一起,那么我们就将其看作一个团。以团为单位,可以提取到一些社交网络特征:

团内其他用户的表现,比方说逾期率、通过量等。这一特征判断的核心思想可以归纳为“近朱者赤,近墨者黑”。

团本身的特性,比方说节点数、团内用户的连接紧密程度等。

团内用户的属性,比方说团内的女性人数、地区分布、平均借款额度等。一般而言,团内女性人数占比越大,团内用户是“好人”的概率就越大。

秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用(附PPT+视频) | 硬创公开课

从社交网络中提取的特征主要可应用于两大方面:

一、将特征数据加入信用评分模型,提升其准确度。根据以往的经验,加入这些数据后,AUC值可以提升3-5%。

二、通过无监督的聚类方法来预防欺诈。我们将某个地区的所有用户进行特征分析后,投影到二维平面,通常可以发现两到三个异常点,他们距离其他用户非常远。这时候就会触发我们的调查机制,调查这个用户是否真的存在欺诈行为。实践检验,这种异常值检测的方法可达到60%左右的准确率,证明对于预防欺诈,社交网络特征分析确实行之有效。

产品优化

优化金融产品参数

消费金融产品主要指分期借贷,我们可以把它想象成信用卡,其主要参数有额度、利率和期数。设计这些参数时,我们主要需要考虑两个方面:

产品的接受度。我们向用户推荐产品时,用户是否会接受?一般而言,产品额度越大、利率越低,用户接受的可能性就越大。

风险控制。随着用户接受度提高,风险也在增加。如果我们向用户提供的额度超出其偿还能力,资金就很可能收不回来。

产品的接受度和风险彼此冲突,我们需要寻找折中方案。

下面介绍一个我们开发的基于贝叶斯算法的框架。在消费金融场景中,简单来说,可以把用户划分为“好人”和“坏人”。在给定用户表现和金融产品参数的前提下,基本可以确定这款产品能够带来的受益。但同一个用户在不同时期的表现是不一样的。比方说,用户这段时间经济状况较好,能够及时还款;一段时间后他经济状况变坏了,就很有可能还不上。用户是“好人”还是“坏人”,是个概率性问题。

秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用(附PPT+视频) | 硬创公开课

上面的公式中,p代表在给定某个金融产品和用户的前提下,这个用户是“好人”还是“坏人”的概率。统筹考虑所有情况后,就能得出这个用户身上的期望收益。

我们希望通过调整产品参数将收益最大化,同时也需要关注用户逾期的风险。在给定某个产品的前提下,我们希望用户是“好人”的概率大于某个值,比如0.6或者0.8。这样可以间接控制用户可能带来的损失。

秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用(附PPT+视频) | 硬创公开课

上图展示了我们对“用户是‘好人’还是‘坏人’”的概率估计情况。其中x轴代表额度,y轴代表期数,z轴代表用户是“好人”的概率,每一个曲面对应一位用户。从图中可以看出,有些用户对于额度和期数不太敏感。虽然随着额度和期数增加,他们是“好人”的概率有所下降,但始终高于某个数值。有些用户则对额度和期数非常敏感。通过大量提取用户特征,我们可以不断对模型进行优化,为每个用户量身打造合适的金融产品。

秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用(附PPT+视频) | 硬创公开课

那么,这个模型的效力究竟如何呢?上图进行了展示。图中x轴代表风险阈值,左端表示阈值非常低,我们可以冒巨大的风险;右端表示阈值非常高,放款策略趋于保守。y轴则代表我们针对某个用户预测的放款金额,与其历史放款金额的比例关系。若比例大于1,就说明预测的放款金额高于历史放款金额,同理反推。从图中可以看出:

在同一风险阈值下,“好人”(黑色)获得的额度总是高于“坏人”(橙色)。

随着风险阈值提高,用户获得的放款额度逐渐下降。

在给定风险阈值的前提下,“好人”获得的预期额度总是高于历史额度,“坏人”则恰恰相反。

结果和预期完全相符,这证明了我们基于贝叶斯算法的分析框架确实行之有效。

延长用户生命周期

企业总是希望用户能尽可能长时间地使用自己的产品。因此新用户借款并如期还款后,企业还会向其推荐其他金融产品。那么,如何最大限度地留住客户,延长其生命周期呢?

秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用(附PPT+视频) | 硬创公开课

在用户的整个还款周期中,我们可以通过用户在每一个还款节点的表现,判断其是“好人”还是“坏人”,并作出相应调整。如果用户还款表现好,可适当提升额度或降低利息,鼓励其使用我们的其他产品。若用户表现差,则可以降低额度和提高利息,以防控风险。极端情况下,将启动调查或催收机制。

借助这些手段,企业可以提升用户黏性,并将收益最大化。

马尔科夫决策过程-增强学习

为实现这一目的,我们采用了深度学习以及运筹学中非常经典的马尔科夫决策过程进行建模。企业关注的是用户在整个生命周期中带来的累积收益,因此不同于前面提到产品参数优化。产品参数优化是单步决策,而收益最大化是多步决策问题,需要在每一步决策中不断优化我们的策略。

秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用(附PPT+视频) | 硬创公开课

上图中的公式中,r是一个reward函数,它取决于st和θt两个变量。st和θt分别代表当前账期下用户的表现(逾期或提前还款等)以及企业的决策(提额或降息等)。π则代表企业在每个账期中的单步策略累计而成的整体策略。通过这个公式,我们可以得到预期的最大收益。

昨天阿尔法go再次战胜了中国著名棋手柯洁。阿尔法go用到的一个核心算法叫做增强学习,增强学习的本质其实也是马尔科夫决策过程。它用到了不断迭代的online learning算法来解决多步决策问题。

马尔科夫决策应用到消费金融场景,过程大致如下:新用户进来后,系统会抽取他的个人特征,同时根据其当前还款状态,以及在这个时间点上带来的利润或者损失,优化value function和state representation。value function和state representation是通过分析和学习用户历史数据得来的,加入新的数据后,系统会不断校正value值。如果某一步决策对我们不利,那么其value值就会降低,反之则value值提高。如此不断循环往复。

总结

前面提到,AI在消费金融风险控制以及产品优化方面,能够发挥巨大重要。但需要强调的是,现在AI概念非常热门,大家都希望学到最新的算法;但要把AI算法落地到实际生产和业务中,还是应该立足业务本身,不断挖掘数据优化模型。选择什么模型不重要,模型好坏最终还是要看它是否能够给业务带来增长。最理想的状态是,企业能够通过模型优化业务流程,获取更多数据,然后利用新的数据进一步优化模型,形成良性循环。

QA:

1.除了风险控制,未来AI还可以应用到消费金融的哪些环节,将给行业带来怎样的改变?

前面已经提到了产品结构优化。通过优化产品参数和结构,来提升用户黏性,将收益最大化,这对于企业来说非常重要。除此之外,AI还可以用于产品推广,比如通过现有的社交网络,向其他用户推荐适合他们的金融产品。

2.在目前技术条件下,AI风控相比传统风控存在哪些不足?未来如何提高?

AI技术立足于大数据。如果我们能够获取足够多、足够新的,具有表征能力的数据, AI风控一定能够打败传统风控。但很多时候,企业获取的数据往往不够充分。这时候,基于长期经验积累的传统风控往往能够提供行之有效的风险控制手段,虽然他们的方案不一定是最优的。如果未来AI能够进化到拥有学习和推理能力,那么它完全能够取代传统风控,不过短期内还很难实现。

3.随着人工智能发展趋于成熟,未来消费金融行业必然会大规模引进这项技术,这是否会带来风险评估同质化的问题?企业该如何进行产品的差异化开发?

这个问题确实存在,未来同一个行业用到的AI算法大多类似。但每个企业采集到的数据端不同。如果企业能够采集到足够新、足够可靠的数据,其风险控制能力将显著提升。因此,问题的本质在于如何获取尽可能多的优质数据。

4.人工智能能否代替个人征信的作用?

我个人认为是可以的。央行的征信系统能够做到多好,取决于大型机构,比如银行和BAT等大企业,愿意在多大程度上贡献数据。如果这些机构愿意将数据完全共享出来,那么央行的征信系统可以做到非常完善,但其中存在非常大的阻力。企业们还是更愿意基于自己采集到的数据,尽可能把风控模型做到最好。如果央行无法采集到足够多的数据,其征信系统不见得一定比企业的风险控制系统更好。

5.入门应该如何学习AI

个人认为可以分两个层面:首先可以上网搜索一些教程,比如说雷锋网(公众号:雷锋网)硬闯公开课上的教程;另外还可以通过实现现有的、开发好的AI程序,提升自己的动手能力。总之,学习和实践相结合。

本文作者:刘伟2017-05-26 19:36专题:硬创公开课

这篇关于秦苍科技数据科学家沈赟:AI在消费金融产品优化以及风险控制中的应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/294171

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Spring Security 基于表达式的权限控制

前言 spring security 3.0已经可以使用spring el表达式来控制授权,允许在表达式中使用复杂的布尔逻辑来控制访问的权限。 常见的表达式 Spring Security可用表达式对象的基类是SecurityExpressionRoot。 表达式描述hasRole([role])用户拥有制定的角色时返回true (Spring security默认会带有ROLE_前缀),去

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na