阿里巴巴一线数据分析工程师力作,人人看得懂用得上的数据分析书

本文主要是介绍阿里巴巴一线数据分析工程师力作,人人看得懂用得上的数据分析书,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

如果你时而觉得数据分析确实是技术活,时而觉得学习数据分析与学习数学确实比较相似,时而又觉得数据分析确实要服务于业务......听着都有道理。那么数据分析的定位到底是怎样的?这个问题在学习数据分析的过程中一直困扰着大家。

 

如果你手里有一本《数据分析通识》,那么以上各种问题都不再是问题。

多年的学习经历与工作实践让作者终于能够比较全面、详细地了解数据分析的发展愿景与当下在各行各业中数据分析的不同应用场景。数据分析离不开技术,数据分析离不开数学理论,数据分析也离不开与业务的结合。这些说法都对,但这些说活并不能代表数据分析的全部。数据分析更像是链接技术认知、理论认知与业务认知的桥梁。即使不了解数据分析,我们也知道技术可以造福人类,科学理论可以改变世界,但技术与理论知识是如何造福人类、改变世界的,我们往往无从知晓。而数据分析会清楚地告诉人们这些过程、这些细节、这些机理。它就如同一阵吹开了技术、业务之间屏障的风,让现实业务之间关系非常清晰地展现出来,让每个人看到这些细节,都发出“原来如此”的感叹。

《数据分析通识》旨在成为一本“通识”类书,做各位读者“了解与学习数据分析的案头书“。既然是通识类型的书,在选择本书的内容时,就会在内容广度与深度的权衡上,更向广度方面倾斜,在深度方面做一些牺牲。同时在组织这些内容时,作者也结合了近几年的工作经验,将在实际业务场景中应用到的案例进行脱敏抽象,置于本书的各个章节之中。如上所述,数据分析是连接科学技术与实际业务的桥梁,作者也想以此真正打通从技术到业务的认知通道。

业内推荐

作者目前任职于国内顶级互联网公司,具有丰富的数据获取、处理和分析经验,他将自己的经验总结成书,所以,这是一本非常适合读者了解大数据、掌握数据分析的图书。书中有大量的实例佐证数据分析和数据建模的理论和方法,理论联系实际,而非空谈,对职场数据相关从业者很有帮助,强烈推荐大家学习。——阿里巴巴前资深算法专家 李瑞方


数据分析的本质是从业务出发解决实际的业务问题,本书从数据开始,到数据的处理过程和可视化,到业务的数据分析、数据建模,再到数据与人工智能应用的结合等,通过大量的实例,把数据建模与数据分析讲解得通俗易懂,助大家快速成为数据分析实战高手,强烈推荐本书。——开课吧合伙人 汪鸿俊


随着5G的普及,智能硬件设备的增加,数据仍将以几何倍数产生。正如马老师所预言的那样,未来某一天产生的数据将会比现在一年产生的数据量还要大。在数据已成为水电煤的今天,投身数据相关工作或许是最有”钱“途的职业之一。但数据真正的价值不以数量多寡而论,而在于通过对数据的加工处理分析,最终将海量的数据变成辅助决策和驱动业务的依据。数据分析师群体就是企业内点”数“成金的操盘手,左手提数右手报表、写的了SQL做的了PPT,是业务老大最器重的智囊团。那想成为一名数据分析师需要具备哪些技能?数据分析师日常的实际工作内容有哪些?数据分析师的职业前景如何?贾健超老师的这本新书将为你一一揭晓。
贾建超老师具有多年数据从业经验,这本书是以他第一视角结合自身经历写就的,不仅涵盖数据分析师的技能点,还结合生动活泼的业务案例让你深刻理解数据分析师的日常。——DataFun创始人 王大川

 

关于作者

途索,就职于阿里巴巴公司,数据分析专家,从事多年数据科学相关的工作。在消费级领域(C端)与企业级领域(B端)从事过数十个大数据与算法方面的工程与项目,曾多次得到公司的嘉奖和业内的肯定。

 

内容简介

本书务实的数据分析科学技术、精彩的实际业务案例,很好地满足了从业者的实际需求;本书是作者结合近几年的工作经验,将在实际业务场景中的案例进行脱敏抽象,置于本书的每章之中,从而形成的一本把数据分析科学技术应用于实际业务的数据分析类图书。主要内容包括数据处理的抽象流程、数据系统的有机组成、数据获取、探索性数据分析、目的性数据分析、数据可视化、特征工程、模型、结果评价、数据应用等。
本书介绍了数据分析科学的许多方面,不但适合业务分析人员和数据分析与建模从业者学习,还可作为大专院校相关专业师生的学习用书,以及相关培训学校的教材。

目 录

第0章 技术与业务 1

0.1 一个场景 1

0.2 什么是业务 2

0.3 技术与业务的分工 3

0.4 数据分析工作者的定位 4

第 1章 数据处理的抽象流程与数据系统的

有机组成 6

1.1 数据与大数据 6

1.2 数据驱动的系统 7

1.3 数据处理的一般环节 8

1.4 数据的服务对象 9

1.5 与数据业务相关的技术分工 11

第 2章 数据获取 15

2.1 获取数据需要的成本 15

2.2 获取数据的主要方式 15

2.2.1 设备采集 15

2.2.2 业务记录与调查 16

2.2.3 日志与埋点 16

2.2.4 爬虫抓取 17

2.2.5 合作、服务与购买 18

2.2.6 数据仓库 19

2.3 采样数据的陷阱 20

2.4 本章涉及的技术实现方案 22

2.4.1 爬虫抓取(Python版) 22

2.4.2 前端埋点SDK 23

2.4.3 日志采集 23

2.4.4 数据仓库 23

第3章 探索性数据分析与目的性数据

分析 24

3.1 探索性数据分析 24

3.2 一份数据集 24

3.3 数据字段分类 25

3.4 遍历每个字段 26

3.4.1 了解离散属性 27

3.4.2 了解连续属性 28

3.4.3 分布与分箱 32

3.4.4 异常值与数据清洗 36

3.5 数据分析的本质 37

3.5.1 寻找用来比较的实体 39

3.5.2 拿什么进行比较 42

3.5.3 怎样进行比较 42

3.6 目的性数据分析 89

3.6.1 目的性数据分析的一般方法 90

3.6.2 目的性数据分析的意义 92

3.7 本章涉及的技术实现方案 93

3.7.1 数据分析软件 93

3.7.2 SQL 96

3.7.3 Python 97

3.7.4 大数据分析解决方案 98

第4章 展示信息的推荐方式——

可视化 100

4.1 数据可视化 100

4.2 常见的图表类型与应用场景 101

4.2.1 趋势型 101

4.2.2 比较型 104

4.2.3 比例型 106

4.2.4 分布型 107

4.2.5 区间型 109

4.2.6 关联型 109

4.2.7 地理型 112

4.3 数据可视化与数据分析 112

4.3.1 数据可视化与假设检验、

分布拟合 112

4.3.2 数据可视化与多维分析、钻取

分析、交叉分析 115

4.3.3 数据可视化与秩次分析 117

4.3.4 数据可视化与相关分析、

回归分析 119

4.3.5 数据可视化与分组归类 121

4.3.6 数据可视化与目的性数据

分析 122

4.4 可视化数据交互 122

4.4.1 交互式可视化的流程 124

4.4.2 常见的数据可视化交互

组件 124

4.5 可视化设计 125

4.5.1 可视化设计的美学原则 125

4.5.2 可视化设计的高效原则 126

4.5.3 可视化交互的一些准则 129

4.6 可视化工程 129

4.6.1 确定主题 130

4.6.2 提炼数据 130

4.6.3 选择合适的图表 131

4.6.4 可视化设计 131

4.7 本章涉及的技术实现方案 131

4.7.1 Python 131

4.7.2 开源可视化API 132

4.7.3 商业化 132

第5章 特征工程 133

5.1 变量、字段、属性、维度和特征 133

5.2 特征工程的内涵 135

5.3 特征获取 136

5.3.1 获取用于提取特征的数据 136

5.3.2 特征的可用性评估 137

5.3.3 从特征获取的角度清洗数据 137

5.4 特征处理与提取 138

5.4.1 数据清洗 138

5.4.2 特征选择 138

5.4.3 特征变换 143

5.4.4 特征抽取 153

5.4.5 特征衍生 156

5.5 特征监控 161

5.5.1 监控已有特征 161

5.5.2 寻找新的特征 162

5.6 一个例子 163

5.6.1 有哪些数据 163

5.6.2 提取业务特征 164

5.6.3 特征处理 165

5.6.4 二次特征衍生 165

5.6.5 二次特征处理 165

5.6.6 建模与迭代 165

5.7 头脑风暴 166

5.8 本章涉及的技术实现方案 167

5.8.1 Python 167

5.8.2 大数据平台的特征工程模块 168

5.8.3 组件化的特征工程 168

第6章 模型 169

6.1 模型的概念 169

6.2 业务模型、数据模型、函数模型 170

6.2.1 业务模型 170

6.2.2 数据模型 171

6.2.3 函数模型 173

6.2.4 其他“模型”与上述3种模型的

关系 174

6.3 机器学习与统计建模的联系与

区别 175

6.4 函数模型与业务 176

6.4.1 数据、特征工程与函数

模型 177

6.4.2 监督学习、无监督学习、

半监督学习与归纳偏置 177

6.4.3 交叉验证与过拟合 182

6.5 常见的函数模型 185

6.5.1 数据的刻画方式 185

6.5.2 分类与回归 191

6.5.3 聚类 237

6.5.4 关联 245

6.5.5 半监督学习 249

6.6 调参 253

6.6.1 调参调的是超参数 253

6.6.2 经验调参 254

6.6.3 简单模型 254

6.7 什么样的模型是好模型 255

6.7.1 模型选择 255

6.7.2 可解释性 256

6.7.3 奥卡姆剃刀原理 257

6.8 迁移学习与强化学习 259

6.8.1 迁移学习 259

6.8.2 强化学习 261

6.9 本章涉及的技术实现方案 263

6.9.1 Python 263

6.9.2 大数据 264

第7章 结果评价 265

7.1 分类模型的结果评价 265

7.1.1 正样本与负样本 265

7.1.2 混淆矩阵及其衍生指标 266

7.1.3 ROC与AUC 268

7.1.4 提升图 271

7.1.5 KS曲线 271

7.1.6 过采样与欠采样 272

7.2 回归模型的结果评价 273

7.2.1 基于绝对数值的结果评价 273

7.2.2 基于比例数值的结果评价 274

7.2.3 决定系数与校正决定系数 274

7.3 聚类模型的结果评价 275

7.3.1 方差 275

7.3.2 轮廓系数 275

7.3.3 兰德系数 276

7.4 关联模型的结果评价 276

7.5 本章涉及的技术实现方案 276

第8章 数据应用与人工智能 278

8.1 业务数据化与数据业务化 278

8.2 数据应用的常见产出形式 279

8.2.1 指标 279

8.2.2 表格 280

8.2.3 可视化图表与交互 273

8.2.4 报告 280

8.2.5 模型 280

8.3 几种典型的数据应用系统 280

8.3.1 离线挖掘任务流 280

8.3.2 实时预测与挖掘任务 281

8.3.3 推荐系统 281

8.3.4 搜索引擎 282

8.3.5 Feed流 283

8.4 数据应用系统的优势与限制 283

第9章 未来的数据与数据的未来 285

9.1 数据融合与未来数据驱动系统的

展望 285

9.1.1 数据化是一切的起点 285

9.1.2 融合是数据发挥能量的

关键 286

9.1.3 计算还是太慢了 287

9.1.4 为什么要数据化、融合、

计算? 287

9.2 人工智能 288

9.2.1 人与人工智能 288

9.2.2 智能是个系统 289

9.2.3 智能域 290

后记——拥抱不确定的美好 291

参考文献 295

这篇关于阿里巴巴一线数据分析工程师力作,人人看得懂用得上的数据分析书的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/390233

相关文章

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

计算机视觉工程师所需的基本技能

一、编程技能 熟练掌握编程语言 Python:在计算机视觉领域广泛应用,有丰富的库如 OpenCV、TensorFlow、PyTorch 等,方便进行算法实现和模型开发。 C++:运行效率高,适用于对性能要求严格的计算机视觉应用。 数据结构与算法 掌握常见的数据结构(如数组、链表、栈、队列、树、图等)和算法(如排序、搜索、动态规划等),能够优化代码性能,提高算法效率。 二、数学基础

《计算机视觉工程师养成计划》 ·数字图像处理·数字图像处理特征·概述~

1 定义         从哲学角度看:特征是从事物当中抽象出来用于区别其他类别事物的属性集合,图像特征则是从图像中抽取出来用于区别其他类别图像的属性集合。         从获取方式看:图像特征是通过对图像进行测量或借助算法计算得到的一组表达特性集合的向量。 2 认识         有些特征是视觉直观感受到的自然特征,例如亮度、边缘轮廓、纹理、色彩等。         有些特征需要通

未雨绸缪:环保专包二级资质续期工程师招聘时间策略

对于环保企业而言,在二级资质续期前启动工程师招聘的时间规划至关重要。考虑到招聘流程的复杂性、企业内部需求的变化以及政策标准的更新,建议环保企业在二级资质续期前至少提前6至12个月启动工程师招聘工作。这个时间规划可以细化为以下几个阶段: 一、前期准备阶段(提前6-12个月) 政策与标准研究: 深入研究国家和地方关于环保二级资质续期的最新政策、法规和标准,了解对工程师的具体要求。评估政策变化可

如何成为一个优秀的测试工程师

链接地址:http://blog.csdn.net/KerryZhu/article/details/5250504 我一直在想,如何将自己的测试团队打造成世界一流的团队?流程、测试自动化、创新、扁平式管理、国际标准制定、测试社区贡献、…… 但首先一点是明确的,就是要将每一个测试工程师打造成优秀的测试工程师,优秀的团队必须由优秀的成员构成。所以,先讨论“如何成为一个优秀的测试工程师”,

win7下安装Canopy(EPD) 及 Pandas进行python数据分析

先安装好canopy,具体安装版本看自己需要那种,我本来是打算安装win764位的,却发现下载总是出现错误,无奈只能下载了32位的! https://store.enthought.com/downloads/#default 安装好之后,参考如下连接,进行检验: 之后再根据下面提供的连接进行操作,一般是没问题的! http://jingyan.baidu.com/article/5d6

「大数据分析」图形可视化,如何选择大数据可视化图形?

​图形可视化技术,在大数据分析中,是一个非常重要的关键部分。我们前期通过数据获取,数据处理,数据分析,得出结果,这些过程都是比较抽象的。如果是非数据分析专业人员,很难清楚我们这些工作,到底做了些什么事情。即使是专业人员,在不清楚项目,不了解业务规则,不熟悉技术细节的情况下。要搞清楚我们的大数据分析,这一系列过程,也是比较困难的。 我们在数据处理和分析完成后,一般来说,都需要形成结论报告。怎样让大

结合Python与GUI实现比赛预测与游戏数据分析

在现代软件开发中,用户界面设计和数据处理紧密结合,以提升用户体验和功能性。本篇博客将基于Python代码和相关数据分析进行讨论,尤其是如何通过PyQt5等图形界面库实现交互式功能。同时,我们将探讨如何通过嵌入式预测模型为用户提供赛果预测服务。 本文的主要内容包括: 基于PyQt5的图形用户界面设计。结合数据进行比赛预测。文件处理和数据分析流程。 1. PyQt5 图形用户界面设计

使用AI大模型进行企业数据分析与决策支持

使用AI大模型进行企业数据分析与决策支持已成为现代企业管理的重要趋势。AI大模型凭借其强大的数据处理能力和智能分析功能,能够为企业提供精准、高效的数据分析服务,进而支持企业的决策过程。以下是使用AI大模型进行企业数据分析与决策支持的具体方式和优势: 一、AI大模型在数据分析中的应用 超级数据处理能力 海量数据处理:AI大模型能够同时处理海量数据,包括结构化数据、非结构化数据等,满足企业大规模

文心快码前端工程师观点分享:人机协同新模式的探索之路(三)

本系列视频来自百度工程效能部的前端研发经理杨经纬,她在由开源中国主办的“AI编程革新研发效能”OSC源创会·杭州站·105期线下沙龙活动上,从一款文心快码(Baidu Comate)前端工程师的角度,分享了关于智能研发工具本身的研发历程和理念。 以下视频是关于【人机协同新模式的探索之路】的观点三。 人机协同新模式的探索之路(三) 经纬说: 那么第三个阶段,我们会进一步的去探索