大数据:应用于计量学的新技巧 - 简介以及第一章 用来处理大数据的工具

2024-01-19 04:18

本文主要是介绍大数据:应用于计量学的新技巧 - 简介以及第一章 用来处理大数据的工具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

很久没有翻译文章了,今天偶然看到了谷歌首席经济学家 Hal Varian 的一篇文章,感触很深,决定将这篇文章翻译成中文提供给大家参阅。如果翻译有误欢迎大家指正。另:文章尽量不会逐字逐句的翻译,而是尽可能的翻译文章的含义,如果您对这篇文章感兴趣,请参阅:http://people.ischool.berkeley.edu/~hal/Papers/2013/ml.pdf

- Ye Tian, 2014-04-26, Karlsruhe


注:文章还在慢慢翻译中,最近事情很多比较忙,请海涵。

作者简介

Hal Varian 是谷歌的首席经济学家,同时也是加州大学的经济学荣誉教授。

文章简介

如今计算机在绝大多数的经济活动中有重要的地位,这些被称为“以计算机为媒介的交易”的经济活动产生了大量的数据,而这些数据可以被一些新生的工具进行分析以及处理。本文会来简单的介绍一些用于数据分析处理的工具以及方法。


正文


如今计算机不仅参与了很多的经济交易活动,同时可以抓取这些经济活动中的数据来进行处理和分析,通常我们会采取如回归等一些传统的统计计量学的方法来进行数据分析,但是对于大数据来说,我们可能需要一些其他的处理工具或是方法。

 

首先,庞大规模的数据更需要一些强大的数据分析工具来被处理;其次我们也可能会在回归方程中添加过多的变量,这时我们就更需要对这些变量进行适当的筛选;其三,线性回归模型仅仅可以对这样的大型数据提供有限的支持,所以一些如决策树,支持向量机,神经网路和深度学习等这样的机器学习工具就会被拿来做更加复杂的数据分析。

 

本文我(Hal Varian)会来介绍一些来处理和分析大数据的方法和工具。我认为这些方法应当更加广泛的被经济学家所使用:事实上这段时间我一直建议我的学生去计算机系上一下机器学习的课程。在过去的十年间计算机学家和统计学家合作搞出了很多研究成果,因此我也期望在未来经济学家也可以和这些计算机学家合作,搞出更多更丰富的研究成果来。

第一章 用来处理大数据的工具

历来经济学家通常把数据丢进电子表格(比如Excel)来处理,不过随着数据越来越复杂现在一切都开始慢慢发生变化;我们可以参看 Einav 和 Levin 在2013年的文章中举的一些例子和讨论。如果你有上百万行的数据,那么也许你会跟想把这些数据存在诸如 MySQL 这样的关系数据库中。关系数据库提供了一种很灵活的方式来存储,处理和检索数据,这个“方式”被称为结构化查询语言(Structured Query Language,简称为SQL),简单易学,对于中等规模的数据集来说非常好用。

 

不过当你有数千兆的数据或者几百万观测数据,这些标准关系数据库将变得很难用。管理这样的数据的数据库被称为“NoSQL”,这个词没有一个固定的解释,不过一般都被解释为“not only SQL”。NoSQL数据库没有 SQL 数据库那么多先进的数据处理功能,但是可以比SQL处理更大规模的数据。

 

由于这种以计算机为媒介的交易越来越多,很多公司都认为定制一套可以每天可以处理数十亿条交易信息的系统是很必要的。比如Sullivan在2012年发表的文章中指出,谷歌每天要浏览30万亿的链接地址,并从其中的200亿链接爬数据,还要每月响应1千亿的搜索请求。对于传统数据库来说,但处理这一天的数据基本上是不可能的。因此为了管理和分析大数据,人们开发了一些工具来用。

 

其中许多工具谷歌都是有版权的,不过因为在发表的论文里面描述的很详细,所以也有很多开源的工具可以使用。在表1中可以看到这些谷歌的工具与其对应的开源版本,你可以在维基百科上面找到这些工具的详细信息。


 

谷歌软件

对应的开源产品

描述

Google File System

Hadoop File System

系统可以将大数据分布存储在成百上千的计算机中

Bigtable

Cassandra

Google File System中的数据表,同样支持分布存储

MapReduce

Hadoop

这个系统用于在如Bigtable这样的大数据结构中处理数据。MapReduce允许秉性处理数据,使用成千上万台机器挖掘你感兴趣的数据。查询请求被“映射”到这些机器中然后并行处理数据。这些局部计算结果相结合后生成一个综述数据表来显示结果

Sawzall

Pig

用来创建MapReduce工作的语言

Go

-

Go是一个灵活的计算机语言,开源,并且很容易做并行数据处理

Dremel, BigQuery

Hive, Drill, Impala

这些工具允许使用通常的SQL查询代码来进行大数据处理。使用Dremel的话从1千兆兆 (1PB)数据中查询只需要几秒钟时间

表1: 用来处理大数据的工具





这篇关于大数据:应用于计量学的新技巧 - 简介以及第一章 用来处理大数据的工具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/621233

相关文章

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

resultMap如何处理复杂映射问题

《resultMap如何处理复杂映射问题》:本文主要介绍resultMap如何处理复杂映射问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录resultMap复杂映射问题Ⅰ 多对一查询:学生——老师Ⅱ 一对多查询:老师——学生总结resultMap复杂映射问题

鸿蒙中Axios数据请求的封装和配置方法

《鸿蒙中Axios数据请求的封装和配置方法》:本文主要介绍鸿蒙中Axios数据请求的封装和配置方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.配置权限 应用级权限和系统级权限2.配置网络请求的代码3.下载在Entry中 下载AxIOS4.封装Htt

基于Python实现高效PPT转图片工具

《基于Python实现高效PPT转图片工具》在日常工作中,PPT是我们常用的演示工具,但有时候我们需要将PPT的内容提取为图片格式以便于展示或保存,所以本文将用Python实现PPT转PNG工具,希望... 目录1. 概述2. 功能使用2.1 安装依赖2.2 使用步骤2.3 代码实现2.4 GUI界面3.效

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

C语言函数递归实际应用举例详解

《C语言函数递归实际应用举例详解》程序调用自身的编程技巧称为递归,递归做为一种算法在程序设计语言中广泛应用,:本文主要介绍C语言函数递归实际应用举例的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录前言一、递归的概念与思想二、递归的限制条件 三、递归的实际应用举例(一)求 n 的阶乘(二)顺序打印

Python通过模块化开发优化代码的技巧分享

《Python通过模块化开发优化代码的技巧分享》模块化开发就是把代码拆成一个个“零件”,该封装封装,该拆分拆分,下面小编就来和大家简单聊聊python如何用模块化开发进行代码优化吧... 目录什么是模块化开发如何拆分代码改进版:拆分成模块让模块更强大:使用 __init__.py你一定会遇到的问题模www.

使用Python自建轻量级的HTTP调试工具

《使用Python自建轻量级的HTTP调试工具》这篇文章主要为大家详细介绍了如何使用Python自建一个轻量级的HTTP调试工具,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录一、为什么需要自建工具二、核心功能设计三、技术选型四、分步实现五、进阶优化技巧六、使用示例七、性能对比八、扩展方向建

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,