牛津大学量化金融创始人:如何获取并应用互联网大数据?

本文主要是介绍牛津大学量化金融创始人:如何获取并应用互联网大数据?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

日前,“2017中欧金融科技产业发展论坛”在深圳举行。众多来自牛津大学、卢森堡大学、欧洲科学院以及法国美国等机构和地区的计算机科学专家也出席了大会,并发表各自领域的演讲。George Gottlob教授是牛津计算机系数据研究中心主任、量化金融研究中心创始人。他的分享主题是“网页大数据——如何获取数据并应用”。

以下是演讲原文,雷锋网(公众号:雷锋网)进行了不改变原意的编辑:

过去10到15年,数据提取是我一大重要研究领域,今天我将介绍如何利用互联网收集数据。

互联网不是数据库

数据就存在于我们的日常生活中,数据对今天的发展来说至关重要。很多人说互联网是最大的数据库,这是不准确的。互联网不是数据库,互联网仅仅是数据的集合。这些数据是非结构化的,非结构化的数据以各种形式存在,因此也无法进行结构化的检索。

举个例子,比如我要让互联网列出维也纳所有满足特定条件的公寓,而条件是带阳台、价格低于50万美元,附近有很多意大利餐馆,但是去互联网上无法搜到结果。因为互联网并不是数据库,只有有了数据库才能实现搜索。

那怎样将互联网变成一个巨大的数据库呢?数据是结构化的,我们可以创建相应的结构,为此必须提取数据。由于今天的时间问题,我不会涉及太多理论,我给大家展示一下使用方法。

牛津大学量化金融创始人:如何获取并应用互联网大数据?

一个网页有很多的标记,左边展示了网页结构,但网页到底怎么收集信息呢?我们从标记中来获取相应的信息。例如我要收集这个网页上所有电话号码,网页上会有电话号码的标记,树状结构上标黄的就是电话。

此外,还需要研究基础语言和逻辑。对于计算机科学家来说,逻辑学是非常重要的。然后再确定想从网页当中挖掘到什么样的信息,这些数据记录是一些非常基本的数据源。如果有人想做编程,就需要做这个语言, 语言可以帮助他找到网页的很多特异性,它和其它网站相连,属性、图片、JAVA语言都非常重要,所以可以从一个语言跳到另外一个语言。

牛津大学量化金融创始人:如何获取并应用互联网大数据?

同时它中间有一个逻辑,必须要进行视觉上的处理,同时需要一个视觉工具。在设计产品和搜索产品的时候,还有上层和下层,包括大数据、数据库的编程以及设计。可视化的发展是指,自动化的工具能让挖掘信息的过程更加可视化,并且会是一个自动的过程。

牛津大学量化金融创始人:如何获取并应用互联网大数据?

比如说从ebay网页上挖掘相关链接。图上所示就是编程的语言,这些路是单一的数据,表示这些数据属于哪里,此页面数据是使用何种语言。但只是做这个语言是完全不够的,我们需要从几万页或者是几百万页的网页上去抓取、挖掘数据,所以会用到云。我们拥有云的数据,用云来做这样的工具。

在数据挖掘方面,我们有本地化的内容挖掘和云的内容挖掘。2001年我联合建立了一家公司,这个公司为客户提供了不少的帮助。以下是一些使用情景,体现了数据提取的重要性。

我们曾经有一些用户是电子产品的零售商。对他们来说,他们不仅要考虑市场的情况,还需要考虑竞争对手的情况,包括每日价格、成本、消费趋势、产品结构信息。这些数据对于他们来说非常难获得。而实现自动化的数据挖掘却又十分重要。我们得到了一个电子产品列表,表格列出了客户的竞争对手,并能显示出对方哪些方面做得更好。所以客户能从中看到可以改善的区域,比如是价格还是竞争力。

第二个代表性场景是对冲基金。房屋价格指数由国家统计部门经常性发布的。它影响着不同行业的股价。如果能够在国家统计部门宣布之前预见房价,可以做很好的投机。

第三个场景是建筑公司投标。投标者来自全世界,要想知道潜在竞争对手的信息非常昂贵并且不完整。但我们做的事情切中了竞标者痛点。

全自动数据挖掘

英国有超过15000个房地产网站,还有一些没有被完全覆盖的聚合,而这高度要求着完全自动的挖掘技术。因为虽然这些信息很容易获得,但是手动或者半自动化加工数据成本太昂贵。而目前不存在完全自动的挖掘工具或者技术。因此我和一位牛津教授合作,研究固化或者形式化数据挖掘,这样机器就能自动地挖掘数据。

牛津大学量化金融创始人:如何获取并应用互联网大数据?

这幅图中的黑点是URL的链接,这是一个源数据项目,我们通过构建黑盒子来改变数据,从几千万的页面到一个大数据集。

牛津大学量化金融创始人:如何获取并应用互联网大数据?

上图为两种不同来源的知识类型。就像一个小孩学习知识,在学校里会有许多人告诉他规则,他学习的就是规则。所以这就是一个从机器学习迁移到规则为基础的推理。这对于研究者来说非常重要。右边是通过规则建立的推理,我们通过规则实现自动化。规则总共有两种,本位规则和其它规则。

2015年我们创建了一个公司,为了使用这种系统和规则,我们需要识别和对齐对象、填充表单、区块分析和对象丰富化以及云的支持,这样才能更高效地提取信息。我们使用上面的语言从几千个网页提取容量信息,规则也需要语言。在很多领域例如二手车、房地产领域,都可以实现自动化数据提取。如果该领域非常简单,20天能形成相应的规则。但也存在一些非常复杂的领域,每个领域的特点都不同,每个国家都有自己的语言,这些都是需要克服的问题。

目前深耕知识图谱技术

最后介绍一下我们目前的研究工作——知识图谱。知识图谱能以非常清晰的方式来管理大量的知识。它通过识别信息来改变人们的生活,从而形成一个非常大的知识世界。很多公司也跟随着我们的研究脚步,包括Facebook、亚马逊等。当然,小公司也希望利用知识图谱收集员工、客户、竞争者、价格等信息,从而提升业务质量。

而这个知识系统的核心(绿色标识)是推理,其中蕴含很多规则,有很多对外接口。其中一个接口就是外部数据的提取,主要从互联网上提取数据。此外还有内部的知识,数据库之间也存在着一些关系,可以非常容易地和物联网对接。事实上这是一个推理引擎, 我们这方面的客户包括央行以及其它银行。基于此可以开发很多应用,例如征信等。使用基于规则的系统也可以检测出交易中的欺诈行为。可以用来检测公司贷款的真实性,是否存在骗贷倾向。

牛津大学量化金融创始人:如何获取并应用互联网大数据?

上图展示的是公司的所有权,现实中公司间的股权结构往往非常复杂,可以使用这个系统来理清公司之间的关系,改进公司管理。具体表现在,可以根据股份的多少来确定控股公司。此外,若两家公司共同持有另外一家公司,而这些信息在SQL中是很难处理和查询的,但是使用该解决方案可以更方便管理,提高计算速度。



本文转自d1net(转载)

这篇关于牛津大学量化金融创始人:如何获取并应用互联网大数据?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/358994

相关文章

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

使用Python实现获取网页指定内容

《使用Python实现获取网页指定内容》在当今互联网时代,网页数据抓取是一项非常重要的技能,本文将带你从零开始学习如何使用Python获取网页中的指定内容,希望对大家有所帮助... 目录引言1. 网页抓取的基本概念2. python中的网页抓取库3. 安装必要的库4. 发送HTTP请求并获取网页内容5. 解

Android Kotlin 高阶函数详解及其在协程中的应用小结

《AndroidKotlin高阶函数详解及其在协程中的应用小结》高阶函数是Kotlin中的一个重要特性,它能够将函数作为一等公民(First-ClassCitizen),使得代码更加简洁、灵活和可... 目录1. 引言2. 什么是高阶函数?3. 高阶函数的基础用法3.1 传递函数作为参数3.2 Lambda

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

Java中&和&&以及|和||的区别、应用场景和代码示例

《Java中&和&&以及|和||的区别、应用场景和代码示例》:本文主要介绍Java中的逻辑运算符&、&&、|和||的区别,包括它们在布尔和整数类型上的应用,文中通过代码介绍的非常详细,需要的朋友可... 目录前言1. & 和 &&代码示例2. | 和 ||代码示例3. 为什么要使用 & 和 | 而不是总是使