牛津大学量化金融创始人:如何获取并应用互联网大数据?

本文主要是介绍牛津大学量化金融创始人:如何获取并应用互联网大数据?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

日前,“2017中欧金融科技产业发展论坛”在深圳举行。众多来自牛津大学、卢森堡大学、欧洲科学院以及法国美国等机构和地区的计算机科学专家也出席了大会,并发表各自领域的演讲。George Gottlob教授是牛津计算机系数据研究中心主任、量化金融研究中心创始人。他的分享主题是“网页大数据——如何获取数据并应用”。

以下是演讲原文,雷锋网(公众号:雷锋网)进行了不改变原意的编辑:

过去10到15年,数据提取是我一大重要研究领域,今天我将介绍如何利用互联网收集数据。

互联网不是数据库

数据就存在于我们的日常生活中,数据对今天的发展来说至关重要。很多人说互联网是最大的数据库,这是不准确的。互联网不是数据库,互联网仅仅是数据的集合。这些数据是非结构化的,非结构化的数据以各种形式存在,因此也无法进行结构化的检索。

举个例子,比如我要让互联网列出维也纳所有满足特定条件的公寓,而条件是带阳台、价格低于50万美元,附近有很多意大利餐馆,但是去互联网上无法搜到结果。因为互联网并不是数据库,只有有了数据库才能实现搜索。

那怎样将互联网变成一个巨大的数据库呢?数据是结构化的,我们可以创建相应的结构,为此必须提取数据。由于今天的时间问题,我不会涉及太多理论,我给大家展示一下使用方法。

牛津大学量化金融创始人:如何获取并应用互联网大数据?

一个网页有很多的标记,左边展示了网页结构,但网页到底怎么收集信息呢?我们从标记中来获取相应的信息。例如我要收集这个网页上所有电话号码,网页上会有电话号码的标记,树状结构上标黄的就是电话。

此外,还需要研究基础语言和逻辑。对于计算机科学家来说,逻辑学是非常重要的。然后再确定想从网页当中挖掘到什么样的信息,这些数据记录是一些非常基本的数据源。如果有人想做编程,就需要做这个语言, 语言可以帮助他找到网页的很多特异性,它和其它网站相连,属性、图片、JAVA语言都非常重要,所以可以从一个语言跳到另外一个语言。

牛津大学量化金融创始人:如何获取并应用互联网大数据?

同时它中间有一个逻辑,必须要进行视觉上的处理,同时需要一个视觉工具。在设计产品和搜索产品的时候,还有上层和下层,包括大数据、数据库的编程以及设计。可视化的发展是指,自动化的工具能让挖掘信息的过程更加可视化,并且会是一个自动的过程。

牛津大学量化金融创始人:如何获取并应用互联网大数据?

比如说从ebay网页上挖掘相关链接。图上所示就是编程的语言,这些路是单一的数据,表示这些数据属于哪里,此页面数据是使用何种语言。但只是做这个语言是完全不够的,我们需要从几万页或者是几百万页的网页上去抓取、挖掘数据,所以会用到云。我们拥有云的数据,用云来做这样的工具。

在数据挖掘方面,我们有本地化的内容挖掘和云的内容挖掘。2001年我联合建立了一家公司,这个公司为客户提供了不少的帮助。以下是一些使用情景,体现了数据提取的重要性。

我们曾经有一些用户是电子产品的零售商。对他们来说,他们不仅要考虑市场的情况,还需要考虑竞争对手的情况,包括每日价格、成本、消费趋势、产品结构信息。这些数据对于他们来说非常难获得。而实现自动化的数据挖掘却又十分重要。我们得到了一个电子产品列表,表格列出了客户的竞争对手,并能显示出对方哪些方面做得更好。所以客户能从中看到可以改善的区域,比如是价格还是竞争力。

第二个代表性场景是对冲基金。房屋价格指数由国家统计部门经常性发布的。它影响着不同行业的股价。如果能够在国家统计部门宣布之前预见房价,可以做很好的投机。

第三个场景是建筑公司投标。投标者来自全世界,要想知道潜在竞争对手的信息非常昂贵并且不完整。但我们做的事情切中了竞标者痛点。

全自动数据挖掘

英国有超过15000个房地产网站,还有一些没有被完全覆盖的聚合,而这高度要求着完全自动的挖掘技术。因为虽然这些信息很容易获得,但是手动或者半自动化加工数据成本太昂贵。而目前不存在完全自动的挖掘工具或者技术。因此我和一位牛津教授合作,研究固化或者形式化数据挖掘,这样机器就能自动地挖掘数据。

牛津大学量化金融创始人:如何获取并应用互联网大数据?

这幅图中的黑点是URL的链接,这是一个源数据项目,我们通过构建黑盒子来改变数据,从几千万的页面到一个大数据集。

牛津大学量化金融创始人:如何获取并应用互联网大数据?

上图为两种不同来源的知识类型。就像一个小孩学习知识,在学校里会有许多人告诉他规则,他学习的就是规则。所以这就是一个从机器学习迁移到规则为基础的推理。这对于研究者来说非常重要。右边是通过规则建立的推理,我们通过规则实现自动化。规则总共有两种,本位规则和其它规则。

2015年我们创建了一个公司,为了使用这种系统和规则,我们需要识别和对齐对象、填充表单、区块分析和对象丰富化以及云的支持,这样才能更高效地提取信息。我们使用上面的语言从几千个网页提取容量信息,规则也需要语言。在很多领域例如二手车、房地产领域,都可以实现自动化数据提取。如果该领域非常简单,20天能形成相应的规则。但也存在一些非常复杂的领域,每个领域的特点都不同,每个国家都有自己的语言,这些都是需要克服的问题。

目前深耕知识图谱技术

最后介绍一下我们目前的研究工作——知识图谱。知识图谱能以非常清晰的方式来管理大量的知识。它通过识别信息来改变人们的生活,从而形成一个非常大的知识世界。很多公司也跟随着我们的研究脚步,包括Facebook、亚马逊等。当然,小公司也希望利用知识图谱收集员工、客户、竞争者、价格等信息,从而提升业务质量。

而这个知识系统的核心(绿色标识)是推理,其中蕴含很多规则,有很多对外接口。其中一个接口就是外部数据的提取,主要从互联网上提取数据。此外还有内部的知识,数据库之间也存在着一些关系,可以非常容易地和物联网对接。事实上这是一个推理引擎, 我们这方面的客户包括央行以及其它银行。基于此可以开发很多应用,例如征信等。使用基于规则的系统也可以检测出交易中的欺诈行为。可以用来检测公司贷款的真实性,是否存在骗贷倾向。

牛津大学量化金融创始人:如何获取并应用互联网大数据?

上图展示的是公司的所有权,现实中公司间的股权结构往往非常复杂,可以使用这个系统来理清公司之间的关系,改进公司管理。具体表现在,可以根据股份的多少来确定控股公司。此外,若两家公司共同持有另外一家公司,而这些信息在SQL中是很难处理和查询的,但是使用该解决方案可以更方便管理,提高计算速度。



本文转自d1net(转载)

这篇关于牛津大学量化金融创始人:如何获取并应用互联网大数据?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/358994

相关文章

python获取网页表格的多种方法汇总

《python获取网页表格的多种方法汇总》我们在网页上看到很多的表格,如果要获取里面的数据或者转化成其他格式,就需要将表格获取下来并进行整理,在Python中,获取网页表格的方法有多种,下面就跟随小编... 目录1. 使用Pandas的read_html2. 使用BeautifulSoup和pandas3.

SpringBoot UserAgentUtils获取用户浏览器的用法

《SpringBootUserAgentUtils获取用户浏览器的用法》UserAgentUtils是于处理用户代理(User-Agent)字符串的工具类,一般用于解析和处理浏览器、操作系统以及设备... 目录介绍效果图依赖封装客户端工具封装IP工具实体类获取设备信息入库介绍UserAgentUtils

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

C语言中位操作的实际应用举例

《C语言中位操作的实际应用举例》:本文主要介绍C语言中位操作的实际应用,总结了位操作的使用场景,并指出了需要注意的问题,如可读性、平台依赖性和溢出风险,文中通过代码介绍的非常详细,需要的朋友可以参... 目录1. 嵌入式系统与硬件寄存器操作2. 网络协议解析3. 图像处理与颜色编码4. 高效处理布尔标志集合

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

Java中的Lambda表达式及其应用小结

《Java中的Lambda表达式及其应用小结》Java中的Lambda表达式是一项极具创新性的特性,它使得Java代码更加简洁和高效,尤其是在集合操作和并行处理方面,:本文主要介绍Java中的La... 目录前言1. 什么是Lambda表达式?2. Lambda表达式的基本语法例子1:最简单的Lambda表

C# foreach 循环中获取索引的实现方式

《C#foreach循环中获取索引的实现方式》:本文主要介绍C#foreach循环中获取索引的实现方式,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、手动维护索引变量二、LINQ Select + 元组解构三、扩展方法封装索引四、使用 for 循环替代

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr