智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

本文主要是介绍智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


本文作者:张利 2017-07-10 10:32专题:GAIR 2017
导语:7月7日~9日,雷锋网承办的第二届 CCF-GAIR 全球人工智能与机器人峰会在深圳举行,智融集团CTO齐鹏带来了主题为《AI+金融的实践与想象》的演讲

雷锋网消息,7月7日~9日,雷锋网承办的第二届 CCF-GAIR 全球人工智能与机器人峰会在深圳举行。在第二天的金融科技专场中,智融集团CTO齐鹏带来了主题为《AI+金融的实践与想象》的演讲。齐鹏曾任职百度网页搜索部技术经理、高德事业部副总,如今是智融集团CTO。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

以下是雷锋网(公众号:雷锋网)整理的其演讲全文:

二问“人工智能是什么?”

人工智能是什么?每个人都有自己的理解。今天的金融专场有金融专家,也有人工智能专家,所以我们从最简单的例子讲起,比如如何识别一只猫?传统上,要识别一只猫,需要人定义规则,继而机器去实现。在这个过程中,我们可能需要猫的轮廓、纹理、颜色等特征,从这些特征中找到规则,以实现自动化图像识别。但猫的耳朵可能会藏起来,可能会背对着你,在这种情况下,就识别不了了。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

人工智能出现后,我们有了新的技术手段。人工智能处理问题的过程,相当于我们对一个问题进行数学描述,继而机器帮我们找到对应显著特征,找到能够证明一张图片上是否有一只猫的显著依据。

人工智能改变了人和计算机的交互方式,首先,我们要明确解决的问题是什么、问题的复杂度,找到复杂问题的描述,针对这个数学描述,基于大数据,明确描述的函数。其中,有一些理论方法通过反复迭代和具体调参,可以明确用什么样的函数来描述这些问题。所谓函数,在人工智能中对应的不同模型,可能是深度学习模型,其实就是一个神经网络。神经网络中的不同连接方式决定了对复杂问题的解决程度。比如我用了线性模型,其次决定能解决什么复杂程度的问题,之后决定用什么样的数学函数描述这个的问题。 

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

人工智能到底是什么呢?

首先要知道这个问题是什么?而这个问题在客观世界是通过数据表达的。数据分为2部分,一是特征,一是样本。这两部分数据决定了我们对现实世界认识的上限,但这个上限永远没有办法突破。所谓人工智能,就是找到一个函数来描述这个问题,描述的过程即是拟合,基于样本数据进行预测,那么,如何保证预测有效呢?明确问题是同类型问题,而随着样本扩大,局部世界的抽样会越来越逼近现实世界,数据预测也会越来越有效。

其次,考虑场景是什么?在中国,金融是少数人的金融,有一些现代的方法可以预测金融风险,要首先是确认数据够全、够多、数据覆盖准确度高。但中国大多数企业并没有这样的数据,随着移动互联网出现,越来越多的人才把自己的数字信号、数字痕迹呈现在网上。所以,我们可以做的事情就是基于人的一些描述信息,评价其对个人的金融风险有何佐证。这意味着,我们与传统金融机构处理的数据量不一样,数据产生的价值也不一样。传统金融的数据是基于逻辑筛选的数据,那些拥有弱特征数据的人群是传统金融所不能服务的,而我们能从弱特征的数据中找到依据。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

总而言之,我们做的事情就是:从某个人在移动互联网上的数据信号中,找出能佐证这个人金融风险的不同依据,从而对这个人做相应的风险定价,决定这个人群是不是值得被服务的。这一过程需要做很多事情,包括选择哪些学习对象作为数据依据、基于什么目标判断结果是否符合预期。一个说的是样本,一个说的是特征。对于样本来说,这些数据决定了当下对这个问题的理解程度。而通过机器学习方法能无限逼近问题理解的上限。

机器学习又涵盖不同的技术选型,包括深度学习、线性学习方法、非线性学习方法;监督性学习、非监督性学习和半监督学习,这些算法能帮我们对一个人进行不同维度的风险定价和规划。但真正能够通过规则去定义的,仍是冰山一角,而广泛的数据能够带给我们更多有价值的信息。

金融领域如何找“猫”?

人工智能发展很快,影响了我们生活的方方面面,搜索、新闻推荐、购物等各种生活场景下都有用到。这些技术深深影响了我们的生活,就像开车一样,我们不需要造车,但如何开车需要了解,那么在金融领域,人工智能能帮助我们解决什么问题呢?

人工智能的核心是:第一如何识别并找到学习依据;第二如何支撑所有的依据,这需要具备强大的计算能力;第三,数据告诉我问题的上限在哪里,我如何逼近上限,并且可以预测未来的情况。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

所以,我们主要做了三方面的工作。

柯南特征工程
  • 第一,把原始数据加工成机器可以理解的数据过程。好比我有一个发动机,但发动机的类型不一样,其启动场景不一样,同时,不同场景下对发动机的续航能力要求不一样,能源消耗要求不一样,启动速度要求不一样,意味着在不同的场景下需要找到能够解决不同问题的有效办法。

  • 第二,从另一个角度看,特征工程是不断挖掘数据价值的过程。在这个过程中,要考虑不同的方法。如何对原始数据进行覆盖、清洗、弥补;如何找到异常值;如何在模型应用的时候保证应变量的调优以及如何做智能降位确保模型的量化能力。

    经过24个月的迭代,我们的产品已经能够挖掘出1200多个基础维度特征,这可作为判断依据,帮助我们尽可能刻画一个人的生活数字信号。具备了特征工程和学习对象后,相当于我们有了学习书本,学习书本背后带给我们的就是相应的知识。

  • 最后我们要解决的问题是:基于样本的模型有多可靠。这一定程度上取决于输入丰富程度。如果学习输入丰富,那我们需要做的事情就是如何变成一位好学生,充分感知到背后数据的信息和价值。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

D-AI机器学习模型

  • 首先,我们需要判断数据的覆盖、数据的准确性、数据的维度和数据背后和问题之间的相关性。如果是线性相关的,就要符合线性相关的要求,我们需要对特征做相应的加工和处理。如果发现数据相关性并不是线性的,就需要考虑如何用非线性的数据函数描述问题。所有的数据函数,我们都可以称之为一个模型。说起模型,不同的问题需要有不同的解决方法和对策,所以,对于不同的数据源、不同的数据质量、不同的数据类型,在不一样的情况下,我们需要选择什么模型刻画问题。

  • 选定模型后,逼近上限的过程中一定有调参,即模型迭代。

  • 下一步,需要通过大量数据帮助计算机更聪明。人可以通过少量数据进行推理,计算机不可能做少量数据推理,但大量数据推理是完全可以胜任的。 机器学习方法背后的支撑是大数据处理能力。所谓大数据处理,包括以什么样的方式从外部、从内部接收,之后做数据的持久化。

  • 最后,如何做计算支持、服务支持。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

我们构建了Anubis大数据架构,每一决策都可以在8秒钟完成,每一次基准库重建也可以非常快速的完成。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

 当下,人工智能公司之间、人工智能和传统公司之间竞争的是什么呢?我认为,归根结底比的是谁计划得更快。谁计划得更快,谁就会变得更聪明。


我需要把业务做得更优秀,产生更多优质数据,优质数据反哺到业务来,从而让业务做得更好,这就形成了正向的马太效应。只有这样,才能保证公司发展有足够的动力、保持足够快的速度,在行业里面立于一个不败之地。 

正好比较巧,我们的人工智能风控引擎叫做“I.C.E.”,分别是三个字母,I表示Identify,C表示Calculte,E表示Evaluate。即如何尽量快收集到所有的数据样本和表现;如何快速找到或者有效找到这个问题的数学函数表达;对未来有比较好的预测能力。

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

AI在金融领域应用

当AI应用到金融领域时,相比于传统规则,优势是什么?

智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017

第一,避免了一些道德因素影响,避免了主观执行能力不稳定的因素,避免了对员工严格的技术要求,这一块明显机器做得更好。

我们是一个大数据公司,通过人工智能,我们能对传统机构所不能服务的人群进行风险定价,能收集到更多有效信息,从而拥有更多数据,加之我们的技术能力,让我们在迅速形成正向的马太效应,使得业务能够快速向前发展。

 最后,人工智能帮助我们解决什么问题?它提供给我们一种能力:对于大量人不能理解的数据,机器帮我们做定量;当人找不到一个有效函数描述问题时,机器可以找到这样的函数。所以大数据涌现的今天,人工智能可谓应运而生。

人工智能在不同领域、不同的场景下,产生的作用是不一样的。人工智能是否可以解决金融领域里面所有的问题?随着人工智能的加入,金融领域会产生很大的改变,至于说能不能解决所有的问题,需要金融领域专家和人工智能的科学家一起去探索。

这篇关于智融集团CTO齐鹏详析:AI如何处理金融领域的弱特征数据?丨CCF-GAIR 2017的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/670895

相关文章

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Python Transformers库(NLP处理库)案例代码讲解

《PythonTransformers库(NLP处理库)案例代码讲解》本文介绍transformers库的全面讲解,包含基础知识、高级用法、案例代码及学习路径,内容经过组织,适合不同阶段的学习者,对... 目录一、基础知识1. Transformers 库简介2. 安装与环境配置3. 快速上手示例二、核心模

一文详解Java异常处理你都了解哪些知识

《一文详解Java异常处理你都了解哪些知识》:本文主要介绍Java异常处理的相关资料,包括异常的分类、捕获和处理异常的语法、常见的异常类型以及自定义异常的实现,文中通过代码介绍的非常详细,需要的朋... 目录前言一、什么是异常二、异常的分类2.1 受检异常2.2 非受检异常三、异常处理的语法3.1 try-

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

Java Response返回值的最佳处理方案

《JavaResponse返回值的最佳处理方案》在开发Web应用程序时,我们经常需要通过HTTP请求从服务器获取响应数据,这些数据可以是JSON、XML、甚至是文件,本篇文章将详细解析Java中处理... 目录摘要概述核心问题:关键技术点:源码解析示例 1:使用HttpURLConnection获取Resp

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

Java中Switch Case多个条件处理方法举例

《Java中SwitchCase多个条件处理方法举例》Java中switch语句用于根据变量值执行不同代码块,适用于多个条件的处理,:本文主要介绍Java中SwitchCase多个条件处理的相... 目录前言基本语法处理多个条件示例1:合并相同代码的多个case示例2:通过字符串合并多个case进阶用法使用

Java实现优雅日期处理的方案详解

《Java实现优雅日期处理的方案详解》在我们的日常工作中,需要经常处理各种格式,各种类似的的日期或者时间,下面我们就来看看如何使用java处理这样的日期问题吧,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言一、日期的坑1.1 日期格式化陷阱1.2 时区转换二、优雅方案的进阶之路2.1 线程安全重构2