统计学到底给我什么

本文主要是介绍统计学到底给我什么，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

2018/11/04
长久以来，总是自己相信也好，别人告诉也好，就说统计学非常有用。
可是自己也是看了统计学的书，当然，有很大原因是自己看书不够专注，导致最后的结果就是看了这么久，一直看不出什么效果。就是那种，感觉他很有用，但是又用不出来的感觉。
但是最近又有这种感觉，可能他就是这个原因呢，就是不能给我多好的实践出来的感觉。（说这句话，让我感觉，就是还是因为没有实践的机会）
举一个比较恰当的例子，数据可视化。
这个东西的内容，要远比统计学少的多，但我依然觉得这个东西很有用，但每次学发现，就是那些基础的东西，每次看别人说都是那些东西。看来，我这个学习的过程是不对的，我一直都弄错了。这个东西我得好好研究一下。

这次趁这个机会，我把刚刚看的这本书的内容给梳理一下，同时也思考一下，统计学到底能给我什么。看的这本书的名字叫《mind on statistics》，按照该书的目录进行梳理，过程中注重这部分内容对我后续机器学习过程的可能影响。

1、简介

无

2、转化数据为信息
这部分属于机器学习中的预处理部分，将原始数据转化为相应的特征向量，根据自己对各个数据意义的真实理解，进行相应的转换。

书中对这部分内容的划分主要有以下几个部分：数据类型，如何简单的作图来说明变量之间的关系，如何处理异常点（这个内容是我原来一直没有做过的，但也是当时听过的），探究数据分布。

注意，日常生活中很多数据的分布都是正态分布，我没有真实做过，我不敢妄下判断。我觉得，正态分布的假设，应该能给出很大的信息量，估计最有效的，就是那种，两个正态分布的图。

3、采样：如何做调查和问问题
该部分的内容集中在如何采样上，以及采样之后，对样本与总体之间的关系的一些统计数据。

相对应于机器学习部分，交叉验证可能是最好的说明部分，虽然有些数据会利用置信度什么的，但大多数情况下，机器学习都没有利用这部分信息，可能是因为最终之后，总归要用全部数据来做一个样本训练。
但我也想起来一个可用的地方。那就是大数据情况下，该怎么采样。原来的时候一直关注一个问题，就是如何得到有代表性的数据，采样时候才用的策略，估计也应该是一个考虑的因素。从另一个角度来讲，我如果获得了不具有代表性的，我怎么检测出来。

4、从数据关联性中获取有用信息
这一章着眼于如何主观的设计实验来达到关联性检测的要求。对其内容就先不看了，因为后面的内容才是我真正想要的。

（这部分一直以来，最直观的认识，就是一个正相关负相关，即使是看别人的博客，看别人的各种问答，都没办法得到多少有用的信息，我不知道这个东西是不是可以深入，我特别想从这个点入手，来达到一定的掌握度。特别是机器学习过程中，我想知道每个输入变量与输出变量之间的这个具体关系，另一方面，就是我想知道这个东西我能获取到什么样的知识。）

5、数量型变量之间的关系
这一章值得重点关注。按照目录的说法，有以下几点：从散点图中获取模式、米利用回归线来描述线性模式、测量关联的强度和方向。最后一个部分说，关联不代表着是产生的因素。

对于回归类的研究而言，数量型的关联研究基本是必做的，我感觉也没什么好说的，因为本身你就是要从一个公式推导的角度入手（当然不是绝对的）。所以针对这种更久不必多说。相应的，如果我想知道两个输入变量之间的关联是不是也能这么做，这就对后期机器学习过程中的特征工程的意义很重大。

6、分类型变量之间的关系
针对这种变量，好像整体的策略都变得不一样了。目录：展示分类型变量之间的关系、风险，相对风险（这个是什么玩意？？），6.3 The Effect of a Third Variable and Simpson’s Paradox，最后一个不知道是什么。

在机器学习的分类学习中，这种分析更有意义，一般情况下，分类的结果是类别，而不是数值。那么针对输入变量同样为分类变量，这样分析可以达到同数量型变量一样的效果。
这里产生一个问题：我怎么样去描述数量型变量和分类型变量的关系呢。这是个问题。

7-8 概率与随机变量
这两章基本就很熟悉了，不过第7章中几个条目吸引了我：找到概率的几个原则、找到复杂概率的策略、利用仿真来模拟概率（这个，有点意思哦，如果我事先并不知道概率是是什么样的，我怎么去仿真？？？还是我理解错了？？？）

这里就不仔细赘述了。

9、理解样本分布：统计作为随机变量 10-11
这个翻译感觉不对，但是我自己翻译和百度翻译的都是这个。。在没看具体内容之前，我觉得应该是说明利用样本来说明一些统计量的，一定要区分开样本均值这种东西。

这部分也是我认为的统计学真正的内容，就是利用样本来推到整体上的数据分布。但是感觉这部分的内容好像还是有点不太理解。虽然，他前面提到了做调查的时候一些内容，用以获取代表性的数据。
而10-11的内容集中在估计一些参数上，这些也时当时关注过的。
对这部分内容，我还真想不起来好的关联点把他和机器学习的部分结合起来。可能最好的办法，就是最开始进行数据分析的部分把。

12-13 假设检验
同样是当时上课时候的内容，但是仔细想想，我好像一点也不记得了。。。

14、关于简单回归的一些推导

15、对于分类型变量的推导

16、方差分析
这个点，因为前几天我也一直关注方差的一些作用，就比如协方差这些东西。不知道这一张能不能给我带来什么帮助。

17章就不说了，从这个目录上来看，基本上的内容跟我在实验室看到的这个数理统计的书的内容一样。另外，从开始进行推导的部分开始，基本上就对我来说，都是陌生的，都是目前来讲，以我对机器学习的理解，没什么作用的。
但是我觉得如果我为了发现这些关联去学，就有点失去了真正的意义，所以，我还是学习机器学习，然后得到一定的理解之后，再来看。

你看，这个标题，可能我给出的答案就是，统计学，可能真的给不了我什么。
话肯定不要说绝，自然是期待能得到很多应用的内容。

2018/11/22
学习的过程中，发现学习的内容都比较散，没有将很多东西关联起来。可能这就是自学的一个弊端吧，特别是统计学这个东西，我基本都是想起来一个东西就学一下，没有一个系统性，虽然这个post就是为了想串一下。
2018/11/24
关于真正的这个统计学的思维，我还是没太弄明白什么样子。特别是，因为目前机器学习的东西，一直没有和统计学结合起来。
或者说，就是往好了说，我已经学会了这个东西，但就是没有把这个东西真正的利用起来？？？