9102年了，你还不知道怎么做数据科学家吗？

雷锋网 AI 科技评论按：本文作者 Thomas Nield，是美国西南航空公司的商务顾问，著有《Getting Started with SQL （O'Reilly）》等书，是一位经验丰富的数据科学家。他对于自己从事多年的职业有着非常深入的洞察和思考，日前，他在 Towards Data Science 网站上发表了一篇带着点讽刺色彩的对话体文章，在为数据科学新入门者提出建议的同时，也道出了许多人对于「数据科学」这个概念的困惑（例如，当下不少人很容易将数据科学与其他相类似的学科搞混）。文章发布后，不少读者在评论区感慨道：「原来我不是一个人！」

本文由一位想通过自学数据科学成为数据科学家的入门者和一位真正的数据科学家的对话组成。在对话中，数据科学家向入门者提出了一大堆建议，然而入门者在听取这些建议后最终得出的结论竟然是——「我还是把时间花在别的事情上吧」，讽刺意味显而易见。而其中延展出了关于数据科学家的工作内容与其他数据相关职位的工作内容的区别等问题，更是折射出了大多数人都无法很好地将「数据科学」与其他学科区分开来——这种困惑感实质上也是入门者在整个对话过程中都呈现一种「雾里看花」状态的原因。本文整体文风诙谐有趣，对话稍带点讽刺意味，其中暴露的问题也发人深省。同时，对于那些想进入数据科学领域或正在从事数据科学相关工作的读者来说，这篇文章也是一篇非常值得一读的干货文。以下是雷锋网 AI 科技评论的编译。

我所写的这篇文章受启发于 2016 年的一篇文章《How it feels to learn JavaScript in 2016》。本文是一篇「讽刺作品」，因此对于其中的一些言论或建议，希望大家不要太较真。文中所提到的建议有些是好的，有些却是非常糟糕的，很大程度上就跟大家对数据科学的定义一样，它们都只是我的个人观点。

正文内容

据说你就是那个人约我见面的人。非常感谢，也感谢你请我喝咖啡。你了解数据科学是吗？

是的，我了解。我去年加入了 PyData 和 O'Reilly Strata，并且开发了一些模型。

是的，我听说你上周给我们公司做了一个非常好的关于机器学习的展示。我同事说这个展示非常有用。

猫和狗图像的分类器吗？是的，感谢你们的肯定。

无论如何，我已经下决心要重视数据科学、人工智能以及机器学习了。我担任了多年的分析师和顾问，工作内容就是在 Excel 工作簿中处理数字、做数据透视表和图表。不过，我一直都有关注「 AI 将替代人类工作」（文章阅读地址：https://thenewstack.io/ai-starts-taking-white-collar-jobs/）之类的文章，据说连我这种白领也难以幸免。

我在谷歌上搜索「怎样成为一位数据科学家」时找到了这张「路线图」，还了解到了什么是存在主义危机。让我问你这个问题：我如果想成为一位数据科学家，是否需要掌握这张图中的所有东西？

这是你想成为一位自信的数据科学家所要掌握的所有东西（2013 年）。完全是可实现的，不是吗？（图源：Swami Chandrasekaran，http://nirvacana.com/thoughts/2013/07/08/becoming-a-data-scientist/）

简而言之，不需要。没有人使用这张「路线图」了。这张图是 2013 年绘制出来的，里面甚至都没有包括 TensorFlow，你完全可以在这张图中找出几种路线。我认为在当时那个时间，「数据科学家」这个概念就已经变得更加细分也更加专业化了。针对每个细分方向的「数据科学家」采用不同的学习方式可能会更好些。

好的，你说的这些让我心里好受了些。所以我是否应该回学校学习专业知识呢？我从某些地方了解到许多数据科学家都至少有硕士学历，我是否应该去读个数据科学专业的硕士呢？

天哪，为什么你要那样做？·您必须警惕「数据科学」项目，这些项目很大程度上就是变相的的「业务分析」学位。此外，日常学术界往往落后于工业界，也就是说，你在学校学到的技术可能是过时的。为了保持与时俱进，利用 Coursera 或 Khan Academy 自学可能是更好的选择。

噢。

不过，如果你去上大学，可能学的是物理学或运筹学专业？这很难讲。据说，我曾遇到过的很多优秀的数据科学家都来自这些研究领域。你或许也能够找到一个不错的「数据科学」项目。这些我都无法预料，建议你去看看这位读博期间中途辍学的作者 Jeremie Harris 所写的文章（「Do you need a graduate degree for data science?」，阅读地址：https://towardsdatascience.com/do-you-need-a-graduate-degree-for-data-science-8e3d0ef39253）

那我该怎样开始自学呢？LinkedIn 上有一些人说，对数据科学感兴趣的人应该从学习 Linux 开始；接着我又去 Twitter 上看了一下，那里的人又坚持道：数据科学家应该学习 Scala，而不是 Python 或 R 语言。

LinkedIn 上这么说的人还差点道行。至于那些推荐学习 Scala 的人的意见，相信我，Scala 就是条羊肠小道，不值得一直沿着它走到黑。现在都是 2019 年了，Scala 在数据科学界都消失了——如果它还在，就没有 PySpark （获取地址：https://spark.apache.org/docs/0.9.0/python-programming-guide.html）什么事了。并且绝对不要听语言潮人的话，比如那些一直在讨论 Kotlin 的人（相关视频播放地址：https://www.youtube.com/watch?v=J8GYPG6pt5w&feature=youtu.be）。

是吗？那么 R 语言呢？大家似乎很喜欢使用它。

R 语言擅长数学建模，不过也仅是这样。而使用 Python 的话，你可以获得更多的学习投资回报，而且还可以执行更广泛的任务，如数据整理和设置 Web 服务等。

但是 R 语言在 Tiobe 上的排名非常高，并且它有非常多的社区和资源，使用它有什么坏处吗？

听着，你可以使用 R 语言。如果你仅仅对数学感兴趣，你使用 R 语言或许是更好的选择，并且它与 Tidyverse 一起使用时表现会更好。但是数据科学要远远超出数学和统计学的范畴。相信我，在 2019 年，使用 Python 能让你走得更远。

好的，那么... 我猜我将会去学 Python。

你不会后悔的。

Python 很难学吗？当机器人接管相关工作时，Python 能维持我的市场竞争力吗？

当然，Python 是一种非常容易的语言，你可以使用 Python 自主执行许多任务以及做一些很酷的事情。然而你甚至不需要 Python，因为数据科学又不仅仅是脚本和机器学习的问题。

你这话是什么意思？

这些软件都是些工具。你使用 Python 不过是为了基于数据做分析。数据科学有时候会涉及到机器学习，但是大多数时候不会，它也可以仅仅是创建图表的问题。事实上，你甚至都不必要学 Python，仅用 Tableau 就可以了。Tableau 在宣传中称，仅仅使用这些产品就能「让你组织机构中的每个人都成为数据科学家」（该宣传文章阅读地址：https://www.tableau.com/learn/whitepapers/make-everyone-your-organization-data-scientist）。

Tableau 非常自信自己能解决数据科学家的职工问题

什么？那我是不是只需要去买一个 Tableau 的 license，就能成为一位数据科学家了？好的，就让我们有所保留地将这句话视作营销的说辞吧。虽然我可能一无所知，但我知道数据科学不仅仅是制作漂亮的可视化图表。这个我用 Excel 就能做到。

当然，不过你需要承认的是，它就是一次圆滑的营销。将数据图表化是一个有趣的阶段，并且 Tableau 省去了耗时而痛苦的数据处理部分：清洗、整理、迁移以及加载。

是的，这也是我为什么认为学习代码很有价值。那么让我们聊聊 Python 吧。

事实上，你坚持下去就可以了。不过或许你也可以去学习一下 Alteryx。

什么？

Alteryx 是另一款软件，你可以使用它来清洗、整理、迁移和加载数据。它很好用，因为它使用了一个可任意拖放的界面来混合数据并且...

我的天哪，请先停一下！先不要说这个可任意拖放的工具。我想要学的是 Python，而不是 Tableau 或者 Alteryx。

抱歉。我只是想让你避开学习代码，让你的人生更容易些。另外我这样做或许也是因为我们公司也购买了 Tableau 的 license，而我们现在也正在使用。但是无论如何，如果要学 Python，你就要学习使用一些开发库，例如学习 Pandas 来操作数据框架以及学习 matplotlib 来制作图表。实际上，也可以舍弃 matplotlib 去学习 Plotly，它采用了 d3.js 并且更好使用。

我知道这其中的一些词，但什么是数据框架？

它是一项功能，可以在具有行和列的表格结构中操作数据。在 Python 环境中，转移、可视化以及聚合等所有这些很酷的操作都可以使用数据框架实现。

等下，那么它和 Excel 的区别到底在哪里呢？我毕业后就在一直在完成这些任务，这是否就意味着我已经是一位数据科学家了？

如果你这样标榜自己更舒服的话，当然可以。当你去聚会或者写简历的时候，不妨标注上这个自封的头衔。

所以 Python 和 Excel 的区别到底在哪？

Python 的不同之处在于，你可以在 Jupyter notebook （获取地址：https://jupyter.org/）中执行它。你可以逐步执行数据分析的每个阶段，并且 notebook 还可以将每一步都可视化。这个过程大概就像你在创造一个你可以与其他人分享的故事。毕竟，交流和讲故事是数据科学至关重要的部分。

这样说的话，Python 跟 PowerPoint 很像。我之前也一直使用 PowerPoint 处理数据。我现在非常困惑。

这二者有很大区别。Notebook 要远远更自动化和更先进，并且可以轻松追溯分析每个步骤。但是提到这一点，我记得有些人说过甚至不喜欢使用 Notebook，因为它的代码不是很实用（相关视频：https://www.youtube.com/watch?v=7jiPeIFXb6U）。如果你需要将代码转变成软件产品，在 notebook 以外将代码模块化会更简单些。

因此现在的数据科学也是软件工程吗？

数据科学和软件工程很大程度可以划等号，但是现在先别分心到这个上。现在要先学习更为紧迫的事情。数据科学很明显是需要数据的。

当然。

并且开始之初，获取数据的一个不错的方法就是从网页上爬取数据，例如一些维基页面。

此外，我们试图实现的是什么？

我们可以获得一些数据来实践一下。从网页页面上爬取数据并使用 Beautiful Soup（获取地址：https://www.crummy.com/software/BeautifulSoup/）解析可以提供大量非结构化文本数据供我们实践。

我很困惑。我刚刚才读一本关于 SQL 的 130 页的图书（《Getting Started with SQL: A Hands-On Approach for Beginners》，图书查看地址：https://www.amazon.com/dp/1491938617），对于数据，一般我会查询表而不是从网页上爬取。获取数据最主要的途径不应该是 SQL 吗？

我们使用非结构化文本数据可以做很多很酷的事情。我们能用它对社交媒体贴文上的观点进行分类，或者进行自然语言处理。非关系型的数据库（NoSQL）擅长存储这类爬取的数据，因为我们存储的数据还没有被处理为对分析有用的数据。

我听说过 NoSQL 这个术语，它是指 SQL，还是指反 SQL？我是不是可以理解为——它能够处理大数据？

首先「大数据」的风头在 2016 年就过去了，之后其实大部分人都没有真正使用过这个概念了，当你再提起这个概念就不够酷了。像很多令人兴奋的科技一样，它也已经过了技术成熟曲线（Gartner Hype Cycle）的高峰期（相关文章阅读：https://www.analyticsindiamag.com/big-data-buzz-is-on-decline-is-2017-the-year-of-demise-for-big-data/），仅仅只能在某些地方找到它的市场。但是 NoSQL 基本上就是「大数据」运动的产物，并成长成像 MongoDB 这样的平台。

那为什么叫「NoSQL」呢？

NoSQL 的意思是指「不仅仅是 SQL」，并且支持关系表以外的数据架构。不过，NoSQL 数据库通常都不使用 SQL，而是使用专属的查询语言。下图是 MongoDB 和 SQL 的语言比较：

我的天哪，真糟糕！所以你刚刚是说每个 NoSQL 平台都有自有的查询语言？那 SQL 有什么问题呢？

我理解你的感受。除了已存在了几十年，SQL 没有什么其他问题。这种非结构化数据热潮带来了一个可以尝试此前不可能使用的方式去做些不一样或者巨大规模的事情。不过，我猜更多人可能认为 SQL 的存在是有价值的（相关文章阅读：https://blog.timescale.com/why-sql-beating-nosql-what-this-means-for-future-of-data-time-series-database-348b777b847a/），它能让分析变得更简单得多。事实上，许多 NoSQL 和「大数据」技术都在争相将 SQL 层添入某种形态或形式中（相关文章阅读：https://www.networkworld.com/article/3019122/tech-primers/the-hidden-costs-of-nosql.html）。毕竟，即便有些人发现 SQL 很难学，但它也还是一种非常通用的语言。

好的。我总结一下你刚刚说的话，学习 NoSQL 对于成为一位数据科学家来说不再是起决定性作用的，除非我的工作在某种程度上需要用到它。这样说的话，似乎我仅了解 SQL 就很安全了。

仔细想来，还真是，我认为你总结得对，除非你立志成为一位数据工程师（才需要学习 NoSQL）。

数据工程师？

是的，数据科学家分为两个专业方向。数据工程师一般使用产品系统工作，并帮助将数据和模型处理为可用的，但他们会比较少涉及机器学习和数学建模工作——这部分工作由数据科学家负责。二者间的区分是必要的，因为大多数 HR 和招聘者在看简历时都不会跳过「数据科学家」这个头衔（相关阅读：https://www.fastcompany.com/40432834/what-if-the-data-science-skills-gap-is-just-a-hiring-hot-mess）。考虑到这些，如果你想成为一位数据工程师，我推荐你优先学习 Apache Kafka，之后才是学习 NoSQL。现在，Apache Kafka 非常热门。

下面这张维恩图或许对你有帮助，如果你想获得「数据科学家」的头衔，你需要重点关注 Math/Statistics 圆圈与其他学科之间的重叠部分。

数据科学维恩图

好吧。我现在还不知道我想成为一位数据科学家还是一位数据工程师。我们继续讨论一下。但要先回到前面的这个问题：为什么我们从维基页面上爬取数据？

这是因为从维基页面上爬取的数据可以很好地作为自然语言处理的数据输入，之后就像创建一个聊天机器人一样执行相关操作。

就像微软的 Tay 机器人一样？这个机器人是否足够聪明来预测销售额，同时帮我维持合适数目的存货来发布新产品呢？是否存在机器人变成种族主义的风险呢？

理论上来说，它可能会。如果你通过汲取相关新闻文章中的技术，也许可以创建一些模型来找到影响业务决策建议的趋势。但是这真的「真的」很难实现。这样想来，这可能不是一个好的起点。

来自 Gordon Ramsay，该个机器人正在打破烹饪艺术的界限，它甚至写出了一本烹饪书（相关阅读：http://aiweirdness.com/tagged/cookbook）

所以... 自然语言处理、聊天机器人以及非结构文本数据几乎就跟我没什么关系了？

大概没有，但是需要注意的是，现在有大量的数据科学。谷歌、Facebook 等硅谷公司现在都处理大量的非结构化数据（例如社交媒体的贴文以及新闻文章等），并且很明显地是，他们对于「数据科学」的定义影响巨大。之后就是其他的公司使用某个相关的数据库中的业务运营数据以及使用如 SQL 等不是那么厉害的技术了。

这样说也没错。我认为他们也致力于将非结构化数据的处理能力大范围地用于挖掘用户贴文、邮件以及故事来进行广告宣传，或实现其他邪恶的目的。

这恰恰就是这件事的本质。但是你也可能发现朴素贝叶斯方法的趣味以及某些有用的东西。你可以采用文本的主体来预测它的分类，从头开始这项操作也非常简单：

使用朴素贝叶斯方法来分类文本主体的演示视频播放网址：https://youtu.be/JLSdW60t898

不错，朴素贝叶斯方法真的很酷，但是除此之外，我看不到非结构化数据的任何其他价值。

我们之后会继续讨论一下这个问题。这么说的话，你现在工作中处理的大量数据都是列表数据（tabular data）：电子数据表、表格以及大量记录的数字。这些工作内容看上去是你想做一些预测或统计分析。

是的，最终我们就是要实现这些现实问题。现在这些领域引入了神经网络或者深度学习吗？

哎哎哥们你别急啊。我之前就打算建议你从一些有均值和标准差的正态分布开始学习。也可以用 z-scores 和一两个线性回归计算进行概率计算。

但是我还是要说一遍，这些我用 Excel 就能完成！这里我漏听了什么吗？

话是这样说，你可以用 Excel 完成大部分这样的工作，但是当你使用写脚本的方式去做的时候，工作的灵活性会大大增强。

像 VBA 之类的 Visual Basic 吗？

我继续说一下这个问题，当做你没有说过那些话。Excal 有很出色的统计算符和好的线性回归模型。但是如果你需要为项目的每个类别都做一个离散的正态分布或回归，用 Python 语言写脚本要比创建一个长得可怕（都可以成为测量到月球距离的度量标准）的公式要容易得多。

当你熟练掌握 Excel 时，你会遭受与所有人一同工作的痛苦

此外，你还可以使用非常好用的开发库 scikit-learn（获取地址：https://scikit-learn.org/stable/index.html）。针对回归和机器学习模型，你有很多更佳的选择。

完全明白了。你说的这个就涉及到数学建模领域了，如果遇到数学问题，我该从何开始呢？

「传统智慧」说，线性代数是许多数据科学的基石，这是你应该开始的地方。将矩阵相乘和相加（称为点积）是你今后需要反复做的运算，另外如行列式、特征向量等都是重要的概念。3Blue1Brown 几乎是唯一一个你能找到对线性代数进行直观解释的地方（相关视频播放地址：https://www.youtube.com/watch?v=fNk_zzaMoSs&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab）。

将一个数字网格与另一个数字网格相乘/加法，是我将来需要反复做的事情？这听起来毫无意义并且无聊。你能举一个用例吗？

可以..... 机器学习！当你做线性回归（相关阅读：https://towardsdatascience.com/linear-regression-using-gradient-descent-97a6c8700931）或构建自己的神经网络时，就要使用随机权重值来进行大量的矩阵乘法和缩放。

所以矩阵跟数据框架关系很大吗？二者听起来很相似。

实际上，等等... 我在重新思考这个问题。让我们先回到上一个问题，在实践中，你并不需要做线性代数。

真的吗？那我还要学线性代数吗？

在实践中，你可能不需要学习线性代数（相关阅读：https://machinelearningmastery.com/why-learn-linear-algebra-for-machine-learning/）。TensorFlow、scikit-learn 等开发库实际上已经为你完成所有线性代数相关的工作。不管怎么说，线性代数很乏味并且很无聊。最后，你可能希望了解一下这些开发库的工作原理。但就目前而言，你只需开始使用机器学习库，同时可以完全忽略线性代数。

你的不确定性让我不安，我能相信你吗？

能有点感恩之心吗？我把你救出了另一个「兔子洞」。好吧，没关系。

啊

此外，在我忘记之前，我还要提醒你：不要只使用 TensorFlow，另外用上 Keras 可让 TensorFlow 的操作更加简单。

说到机器学习，线性回归真的能够实现机器学习吗？

是的，线性回归构成了「机器学习」的工具包。

这真是太好了，我一直都用 Excel 来做线性回归。所以我也能称为自己是一位机器学习从业者吗？

（叹气）从技术上来说，是的。但是你可能需要扩展一下你的宽度。你可以看到，机器学习（不从技术上来说）一般就是两个任务：回归和分类。不过从技术上来说，分类就是回归。决策树、神经网络、支持向量机、逻辑回归以及线性回归执行的都是曲线拟合的某些形式。根据具体情况，每个模型都有利弊。

等等，所以机器学习就仅仅是回归？他们都能有效地将曲线拟合成点？

大部分都能。像线性回归这样的一些模型是清晰且可解释的，而像神经网络等更先进的模型，从定义上来看，复杂并且难以解释。神经网络实际上只是使用了一些非线性函数的多层回归。当只有 2-3 个变量时，它看起来可能不怎么引人注意，但是当你有数百或数千个变量时，它就开始令人感兴趣了。

简单的神经网络演示视频播放网址：https://youtu.be/tAioWlhKA90

当你这样使用神经网络，当然会让人感兴趣。那图像识别也仅仅是线性回归吗？

是的，每个图像像素基本上都变成了数值的输入变量。这让我想起，你必须警惕维度惩罚（curse of dimensionality.）。这基本上意味着拥有的变量（维度）越多，就需要更多的数据来防止其变得稀疏。这是机器学习如此不可靠和散乱的众多原因之一，并且还会需要大量你所没有的经过标注的数据。

我现在有很多问题。

（那就开始提问吧）

怎么解决员排班或者交通运输等问题？数独（Sudoku）问题呢？机器学习能解决所有这些问题吗？

当你遇到这些类型的问题时，有些人会指出，它们都不是数据科学或机器学习。它们是「运筹学」（相关阅读：https://en.wikipedia.org/wiki/Operations_research）。

对我来说，这些似乎都是实际问题。那么运筹学与数据科学无关吗？

实际上，二者间存在相当多的重叠。机器学习使用到的大量优化算法，其实都是运筹学所提供的。此外，运筹学还为常见的「AI」问题（就如你刚刚所提到的）提供了许多解决方案。

那么我们使用什么算法来解决这些问题呢？

绝对不是使用机器学习算法，这一点很少有人知道。解决这些问题可以使用存在了几十年的更好的算法，例如树搜索、启发式演算法、线性规划以及其他的运筹学方法论（相关阅读：https://www.coursera.org/learn/discrete-optimization/home/welcome），它们已经被使用了很长时间，并且对于这些类型的问题，它们的表现要比机器学习算法更好。

那么为什么每个人在谈论的都是机器学习而不是这些算法呢？

（叹气）因为这些优化问题在短时间内就得到了令人满意的解决，并且之后也没有发生关于这些方法的热点新闻。信不信由你，关注这些算法的首轮 AI 热潮发生在几十年前。当下的 AI 热潮则是由机器学习点燃的，同时点燃的还有机器学习能很好解决的问题类型：图像识别、自然语言处理、图像生成等。

那人们建议使用机器学习来解决排班问题，或者如数独这类简单问题时，这种做法是否错误呢？

差不多，是的。机器学习、深度学习等等...... 今天这些炙手可热的技术通常都无法解决离散优化问题——至少无法很好地解决。研究者们都有过尝试，但效果非常不理想。

因此，如果机器学习只是回归，为什么每个人都小题大做地认为机器人和人工智能会威胁到人类的工作和社会？我的意思是...... 拟合曲线真的有危险吗？当「AI」在进行回归时，它又有多强的自我意识？

人们已经发现了一些更明智的回归应用，例如在给定的转弯上找到最佳的国际象棋移动（这个离散优化也可以实现），或者自动驾驶汽车计算出要转向的是哪个方向。当然，这其中有相当多的炒作成分，而且回归也仅有这么些应用并且只能运行一个任务。

我还在适应这种脱节。我一直都有阅读关于 DeepMind 在国际象棋游戏中复制类人的智能的文章（雷锋网相关报道文章：《AlphaGo称王！柯洁输掉三番棋最后一场》），如今它正致力于击败《星际争霸》中的人类玩家（雷锋网(公众号：雷锋网)相关报道文章：《多图详解 DeepMind 的超人类水准星际争霸 AI 「AlphaStar」》）！这些机器学习算法在所有这些游戏中都击败了人类玩家！这是否也意味着他们接下来将取代我等人类的工作呢？

《星际争霸》人类玩家中又有多少人威胁到你的工作呢？

（默默地疑惑）

难道你能说玩《星际争霸》游戏跟从事你的工作完全类似吗？