大数据：应用于计量学的新技巧 - 简介以及第一章用来处理大数据的工具

本文主要是介绍大数据：应用于计量学的新技巧 - 简介以及第一章用来处理大数据的工具，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

很久没有翻译文章了，今天偶然看到了谷歌首席经济学家 Hal Varian 的一篇文章，感触很深，决定将这篇文章翻译成中文提供给大家参阅。如果翻译有误欢迎大家指正。另：文章尽量不会逐字逐句的翻译，而是尽可能的翻译文章的含义，如果您对这篇文章感兴趣，请参阅：http://people.ischool.berkeley.edu/~hal/Papers/2013/ml.pdf

- Ye Tian, 2014-04-26, Karlsruhe

注：文章还在慢慢翻译中，最近事情很多比较忙，请海涵。

作者简介

Hal Varian 是谷歌的首席经济学家，同时也是加州大学的经济学荣誉教授。

文章简介

如今计算机在绝大多数的经济活动中有重要的地位，这些被称为“以计算机为媒介的交易”的经济活动产生了大量的数据，而这些数据可以被一些新生的工具进行分析以及处理。本文会来简单的介绍一些用于数据分析处理的工具以及方法。

正文

如今计算机不仅参与了很多的经济交易活动，同时可以抓取这些经济活动中的数据来进行处理和分析，通常我们会采取如回归等一些传统的统计计量学的方法来进行数据分析，但是对于大数据来说，我们可能需要一些其他的处理工具或是方法。

首先，庞大规模的数据更需要一些强大的数据分析工具来被处理；其次我们也可能会在回归方程中添加过多的变量，这时我们就更需要对这些变量进行适当的筛选；其三，线性回归模型仅仅可以对这样的大型数据提供有限的支持，所以一些如决策树，支持向量机，神经网路和深度学习等这样的机器学习工具就会被拿来做更加复杂的数据分析。

本文我（Hal Varian）会来介绍一些来处理和分析大数据的方法和工具。我认为这些方法应当更加广泛的被经济学家所使用：事实上这段时间我一直建议我的学生去计算机系上一下机器学习的课程。在过去的十年间计算机学家和统计学家合作搞出了很多研究成果，因此我也期望在未来经济学家也可以和这些计算机学家合作，搞出更多更丰富的研究成果来。

第一章用来处理大数据的工具

历来经济学家通常把数据丢进电子表格（比如Excel）来处理，不过随着数据越来越复杂现在一切都开始慢慢发生变化；我们可以参看 Einav 和 Levin 在2013年的文章中举的一些例子和讨论。如果你有上百万行的数据，那么也许你会跟想把这些数据存在诸如 MySQL 这样的关系数据库中。关系数据库提供了一种很灵活的方式来存储，处理和检索数据，这个“方式”被称为结构化查询语言（Structured Query Language，简称为SQL），简单易学，对于中等规模的数据集来说非常好用。

不过当你有数千兆的数据或者几百万观测数据，这些标准关系数据库将变得很难用。管理这样的数据的数据库被称为“NoSQL”，这个词没有一个固定的解释，不过一般都被解释为“not only SQL”。NoSQL数据库没有 SQL 数据库那么多先进的数据处理功能，但是可以比SQL处理更大规模的数据。

由于这种以计算机为媒介的交易越来越多，很多公司都认为定制一套可以每天可以处理数十亿条交易信息的系统是很必要的。比如Sullivan在2012年发表的文章中指出，谷歌每天要浏览30万亿的链接地址，并从其中的200亿链接爬数据，还要每月响应1千亿的搜索请求。对于传统数据库来说，但处理这一天的数据基本上是不可能的。因此为了管理和分析大数据，人们开发了一些工具来用。

其中许多工具谷歌都是有版权的，不过因为在发表的论文里面描述的很详细，所以也有很多开源的工具可以使用。在表1中可以看到这些谷歌的工具与其对应的开源版本，你可以在维基百科上面找到这些工具的详细信息。

谷歌软件	对应的开源产品	描述
Google File System	Hadoop File System	系统可以将大数据分布存储在成百上千的计算机中
Bigtable	Cassandra	Google File System中的数据表，同样支持分布存储
MapReduce	Hadoop	这个系统用于在如Bigtable这样的大数据结构中处理数据。MapReduce允许秉性处理数据，使用成千上万台机器挖掘你感兴趣的数据。查询请求被“映射”到这些机器中然后并行处理数据。这些局部计算结果相结合后生成一个综述数据表来显示结果
Sawzall	Pig	用来创建MapReduce工作的语言
Go	-	Go是一个灵活的计算机语言，开源，并且很容易做并行数据处理
Dremel, BigQuery	Hive, Drill, Impala	这些工具允许使用通常的SQL查询代码来进行大数据处理。使用Dremel的话从1千兆兆（1PB）数据中查询只需要几秒钟时间