###好好好好##知识图谱在金融风控领域的应用现状

2024-05-07 13:38

本文主要是介绍###好好好好##知识图谱在金融风控领域的应用现状,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2020年是个人触碰知识图谱时间最多的一年,技术知识的重新梳理和学习,相关项目的参与,几乎从年初持续到年末。一直想总结知识图谱在金融领域的应用现状,但总是挣不脱一个字:乱。最直观的“乱象”是不同机构对这项技术的称呼五花八门——关联网络、关系图谱、复杂网络、知识图谱。严格来讲它们彼此之间紧密相连又有所区别,本文并不打算严谨地去论证它们的区别和联系,请允许我偷懒采用图谱这个名称来泛指这项技术,就是各位所想的——节点-关系网络。

图谱之乱远不止此。

金融风控技术演进路线是规则-模型-图谱,对应的技术分别是数据分析、机器学习、知识图谱,所需要和处理的数据维度可以抽象成从点到线再到面。在风控人员对模型尚未能完全理解的时候,又期望知识图谱技术能够让风控提升至一个崭新的水平。知识图谱在风控领域的最典型应用场景是利用图谱识别欺诈团伙。从理论(PPT)角度而言,图谱识别欺诈团伙优势万千,比如数据间的天然关联、图谱强大的路径分析功能、各式社区发现算法、风险传播算法等等。从理论到实际,中间隔着一条马里亚纳大海沟。为了满足业务需求,现在普遍的做法如下:

梳理数据->设计图谱->构建图谱->社区划分->社群定性->团伙输出

这里有几个值得深入思考的问题:

  1. 图谱的设计是同构图还是异构图
  2. 如果是异构图应该包含哪些实体,如果是同构图,如何定义节点之间的关系
  3. 依赖算法的社区划分,能否得到真实的符合业务需要的社群
  4. 如何进行社群定性 ,定性是否合理
  5. 新数据进来后,如何更新图谱,如何判断新数据的标签结果

除了团伙识别外,知识图谱应用于金融风控的另一个方向是图指标计算。这里体现出图谱应用的又一个乱象:图指标和图的分离。图指标表面看起来和图紧密相关,实际上图指标通常通过大数据平台(hive, spark)而并非利用图数据库计算而来。导致的问题是图指标的结果和图谱的结果不一致。

举例:

假设我们的图谱结构如下:

图指标举例:该账户1度关联账户平均开户天数、该账户2度关联账户平均交易金额、该账户度中心性

上述的指标计算主体都是账户,按照SQL计算的指标结果和图库计算结果是一致的,因为都是以账户为中心关联到其他节点。

但是,业务又提出需求想计算其他主体的图指标,比如:该设备1度关联的IP数量,该设备1度关联账户交易次数等等。现在指标计算主体已经不是账户,如果我们还是按照原来的图谱结构来计算指标,会发现设备1度根本关联不到IP,但是利用SQL从交易流水数据却能算出结果。同一条数据,SQL可以以任意字段group by,然后count其他字段。一种解决的办法是重新设计图谱结构,如下:

理论上这种结构更符合实际情况,账户只有通过设备才能和IP发生联系,但是不论哪种结构都无法完全满足多维度主体的图指标计算,最后的做法只能是图谱归图谱,指标是指标,图谱和指标相割裂。

更为实际的情况远比这棘手,业务需要的指标通常都带有时间窗口的限制,比如过去3天账户1度关联账户交易平均金额、过去7天账户1度关联账户平均交易金额等等,图谱在处理时间窗口数据问题上又显得捉襟见肘。

也许是业界过于神化人工智能的“智能”忽略了“人工”,也对知识图谱自动输出给予非常高的期待而忽视了其最本质最重要的可视化分析功能。此前一次项目交流中,有位业务人员说“你们的图谱产品也就是做了数据可视化,指标计算我用一般的数据库也能算出来呀”。说者无心听者有意,这反映了不少人对图谱最基本的数据展示功能嗤之以鼻,PPT上宣传的那么厉害的技术,当然要更高端大气上档次,怎么能只用它做数据可视化呢。这是图谱认知之乱。图谱将关系数据库中一条条“线状”的数据提升至“面状”或“网状”数据,数据展示形式的变化带来的是获取信息的视角变化,信息丰富度的变化。就像二维空间的蚂蚁永远想象不到三维空间的风景。基于图谱数据可视化,可以做更多关联关系的分析,然而这个分析过程是没有定论,没有约束,没有标准的,智者见智仁者见仁。图谱分析技术(图查询语言)的不统一严重限制了图谱可视化分析功能的普及,没有标准的分析方法也制约了人们正确认知图谱。

那么图谱可视化分析在实际业务场景能做什么?个人经验之谈,最重要的一点:案件排查。信贷场景、交易反欺诈等场景银行端的数据量和数据维度非常充足,构建的图谱自然是十分庞大复杂。图谱的分析首先得找到切入点,通常是有风险的客户、账户,进而关联出对应的公司、电话、家庭地址、设备等其他实体。通过从案件节点入手,利用图谱研究欺诈分子间的关联关系,顺藤摸瓜识别出其他可疑分子。利用图谱进行案件排查还有可能发现风险群体之间的特殊关联模式,典型的有传销账户金字塔结构,洗钱账户金字塔和倒金字塔结构。还有一些非常见的模式,如下图所示,两个客户(黄色节点)通过联系人(绿色节点)和联系电话(粉色节点)形成了交叉匹配关联,利用传统数据分析很难发现这种没有任何直接共同节点关联的联系。图谱可视化分析对解释团伙关联风险,理解作案手法起到巨大作用。遗憾的是就目前而言,这个过程无法实现自动化,非常依赖分析人员的技术和业务水平,有着一定的使用门槛。风控业务人员关心的是技术产出的结果,花钱采购了一个宣传得NBHH产品,然而还要求自己学习新技术才能使用,不能够自动产出风险名单,这种赔了夫人又折兵吃力不讨好的事甲方可不干。

机器学习模型已经越来成为金融风控必要工具,图谱也逐渐在各个业务场景中崭露头角。图技术的快速演进急切地渴望从学术界的成功转移到工业界的应用。图谱分析、团伙挖掘这些还没玩明白的时候,图嵌入、图神经网络正款款走来。尽管目前还未遇到过必须用图神经网络技术的实际需求,但是图谱方案规划已然走在前列,相信不久的将来此类需求定铺天盖地而来。从解决方案层面,图谱的全应用流程如下:

图谱应用目前的重点是上述流程图的前四个部分,第五部分列举了两种图谱和机器学习相结合的方式,分别是利用图谱构建机器学习特征和利用图谱构建图神经网络。如前所述,走过前四步,尽管还未走得踏实,第五步终将很快到来。

“不识庐山真面目,只缘身在此山中”,图谱在金融风控中的作用毋庸置疑,但是现实项目里总是会被各类问题缠绕不开。暗流涌动之下,图谱目前的乱象是技术从学术应用到工业必经之路,既是机遇,也是挑战。关于图谱技术及应用更多的细节无法用一篇文章完全阐述,后续会用图谱专题做深入探讨。

这篇关于###好好好好##知识图谱在金融风控领域的应用现状的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/967509

相关文章

在Ubuntu上部署SpringBoot应用的操作步骤

《在Ubuntu上部署SpringBoot应用的操作步骤》随着云计算和容器化技术的普及,Linux服务器已成为部署Web应用程序的主流平台之一,Java作为一种跨平台的编程语言,具有广泛的应用场景,本... 目录一、部署准备二、安装 Java 环境1. 安装 JDK2. 验证 Java 安装三、安装 mys

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

java中VO PO DTO POJO BO DO对象的应用场景及使用方式

《java中VOPODTOPOJOBODO对象的应用场景及使用方式》文章介绍了Java开发中常用的几种对象类型及其应用场景,包括VO、PO、DTO、POJO、BO和DO等,并通过示例说明了它... 目录Java中VO PO DTO POJO BO DO对象的应用VO (View Object) - 视图对象

Go信号处理如何优雅地关闭你的应用

《Go信号处理如何优雅地关闭你的应用》Go中的优雅关闭机制使得在应用程序接收到终止信号时,能够进行平滑的资源清理,通过使用context来管理goroutine的生命周期,结合signal... 目录1. 什么是信号处理?2. 如何优雅地关闭 Go 应用?3. 代码实现3.1 基本的信号捕获和优雅关闭3.2

正则表达式高级应用与性能优化记录

《正则表达式高级应用与性能优化记录》本文介绍了正则表达式的高级应用和性能优化技巧,包括文本拆分、合并、XML/HTML解析、数据分析、以及性能优化方法,通过这些技巧,可以更高效地利用正则表达式进行复杂... 目录第6章:正则表达式的高级应用6.1 模式匹配与文本处理6.1.1 文本拆分6.1.2 文本合并6

python中的与时间相关的模块应用场景分析

《python中的与时间相关的模块应用场景分析》本文介绍了Python中与时间相关的几个重要模块:`time`、`datetime`、`calendar`、`timeit`、`pytz`和`dateu... 目录1. time 模块2. datetime 模块3. calendar 模块4. timeit

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,