统计学到底给我什么

2024-06-15 17:18
文章标签 统计学 到底

本文主要是介绍统计学到底给我什么,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2018/11/04
长久以来,总是自己相信也好,别人告诉也好,就说统计学非常有用。
可是自己也是看了统计学的书,当然,有很大原因是自己看书不够专注,导致最后的结果就是看了这么久,一直看不出什么效果。就是那种,感觉他很有用,但是又用不出来的感觉。
但是最近又有这种感觉,可能他就是这个原因呢,就是不能给我多好的实践出来的感觉。(说这句话,让我感觉,就是还是因为没有实践的机会)
举一个比较恰当的例子,数据可视化。
这个东西的内容,要远比统计学少的多,但我依然觉得这个东西很有用, 但每次学发现,就是那些基础的东西,每次看别人说都是那些东西。看来,我这个学习的过程是不对的,我一直都弄错了。这个东西我得好好研究一下。


这次趁这个机会,我把刚刚看的这本书的内容给梳理一下,同时也思考一下,统计学到底能给我什么。看的这本书的名字叫《mind on statistics》,按照该书的目录进行梳理,过程中注重这部分内容对我后续机器学习过程的可能影响。

1、简介

2、转化数据为信息
这部分属于机器学习中的预处理部分,将原始数据转化为相应的特征向量,根据自己对各个数据意义的真实理解,进行相应的转换。

书中对这部分内容的划分主要有以下几个部分:数据类型,如何简单的作图来说明变量之间的关系,如何处理异常点(这个内容是我原来一直没有做过的,但也是当时听过的),探究数据分布。

注意,日常生活中很多数据的分布都是正态分布,我没有真实做过,我不敢妄下判断。我觉得,正态分布的假设,应该能给出很大的信息量,估计最有效的,就是那种,两个正态分布的图。

3、采样:如何做调查和问问题
该部分的内容集中在如何采样上,以及采样之后,对样本与总体之间的关系的一些统计数据。

相对应于机器学习部分,交叉验证可能是最好的说明部分,虽然有些数据会利用置信度什么的,但大多数情况下,机器学习都没有利用这部分信息,可能是因为最终之后,总归要用全部数据来做一个样本训练。
但我也想起来一个可用的地方。那就是大数据情况下,该怎么采样。原来的时候一直关注一个问题,就是如何得到有代表性的数据,采样时候才用的策略,估计也应该是一个考虑的因素。从另一个角度来讲,我如果获得了不具有代表性的,我怎么检测出来。

4、从数据关联性中获取有用信息
这一章着眼于如何主观的设计实验来达到关联性检测的要求。对其内容就先不看了,因为后面的内容才是我真正想要的。

(这部分一直以来,最直观的认识,就是一个正相关负相关,即使是看别人的博客,看别人的各种问答,都没办法得到多少有用的信息,我不知道这个东西是不是可以深入,我特别想从这个点入手,来达到一定的掌握度。特别是机器学习过程中,我想知道每个输入变量与输出变量之间的这个具体关系,另一方面,就是我想知道这个东西我能获取到什么样的知识。)

5、数量型变量之间的关系
这一章值得重点关注。按照目录的说法,有以下几点:从散点图中获取模式、米利用回归线来描述线性模式、测量关联的强度和方向。最后一个部分说,关联不代表着是产生的因素。

对于回归类的研究而言,数量型的关联研究基本是必做的,我感觉也没什么好说的,因为本身你就是要从一个公式推导的角度入手(当然不是绝对的)。所以针对这种更久不必多说。相应的,如果我想知道两个输入变量之间的关联是不是也能这么做,这就对后期机器学习过程中的特征工程的意义很重大。

6、分类型变量之间的关系
针对这种变量,好像整体的策略都变得不一样了。目录:展示分类型变量之间的关系、风险,相对风险(这个是什么玩意??),6.3 The Effect of a Third Variable and Simpson’s Paradox,最后一个不知道是什么。

在机器学习的分类学习中,这种分析更有意义,一般情况下,分类的结果是类别,而不是数值。那么针对输入变量同样为分类变量,这样分析可以达到同数量型变量一样的效果。
这里产生一个问题:我怎么样去描述数量型变量和分类型变量的关系呢。这是个问题。

7-8 概率与随机变量
这两章基本就很熟悉了,不过第7章中几个条目吸引了我:找到概率的几个原则、找到复杂概率的策略、利用仿真来模拟概率(这个,有点意思哦,如果我事先并不知道概率是是什么样的, 我怎么去仿真???还是我理解错了???)

这里就不仔细赘述了。

9、理解样本分布:统计作为随机变量 10-11
这个翻译感觉不对,但是我自己翻译和百度翻译的都是这个。。在没看具体内容之前,我觉得应该是说明利用样本来说明一些统计量的,一定要区分开样本均值这种东西。

这部分也是我认为的统计学真正的内容,就是利用样本来推到整体上的数据分布。但是感觉这部分的内容好像还是有点不太理解。虽然,他前面提到了做调查的时候一些内容,用以获取代表性的数据。
而10-11的内容集中在估计一些参数上,这些也时当时关注过的。
对这部分内容,我还真想不起来好的关联点把他和机器学习的部分结合起来。可能最好的办法,就是最开始进行数据分析的部分把。

12-13 假设检验
同样是当时上课时候的内容,但是仔细想想,我好像一点也不记得了。。。

14、关于简单回归的一些推导

15、对于分类型变量的推导

16、方差分析
这个点,因为前几天我也一直关注方差的一些作用,就比如协方差这些东西。不知道这一张能不能给我带来什么帮助。


17章就不说了,从这个目录上来看,基本上的内容跟我在实验室看到的这个数理统计的书的内容一样。另外,从开始进行推导的部分开始,基本上就对我来说,都是陌生的,都是目前来讲,以我对机器学习的理解,没什么作用的。
但是我觉得如果我为了发现这些关联去学,就有点失去了真正的意义,所以,我还是学习机器学习,然后得到一定的理解之后,再来看。

你看,这个标题,可能我给出的答案就是,统计学,可能真的给不了我什么。
话肯定不要说绝,自然是期待能得到很多应用的内容。


2018/11/22
学习的过程中,发现学习的内容都比较散,没有将很多东西关联起来。可能这就是自学的一个弊端吧,特别是统计学这个东西,我基本都是想起来一个东西就学一下,没有一个系统性,虽然这个post就是为了想串一下。
2018/11/24
关于真正的这个统计学的思维,我还是没太弄明白什么样子。特别是,因为目前机器学习的东西,一直没有和统计学结合起来。
或者说,就是往好了说,我已经学会了这个东西,但就是没有把这个东西真正的利用起来???

按照我现在的想法,统计学的思维应该是一种处理数据的思维,从数据中得到知识(说的好像是数据挖掘),最简单的例子就是利用数据做决策,但是数据大小的制约,需要我们采用一些手段来完成通过小样本窥探整个数据的效果。还有另外一个方面,就是变量的关系分析。

2018/11/24
今天看了一个书的部分章节(统计思维),只能说,看完之后,脑子里就是一顿浆糊,这个写的就是太脱离实际了。也有可能,是我自身的理解能力不够,所以看不太懂。
语言太过抽象了,看起来就比较吃力。

针对统计思维的问题,有一个概念叫做不确定性,而统计从数据中获取知识的过程就是一个消除或者尽可能减少不确定性的过程。日常生活中的各种问题,都存在着不确定性, 通过减少这个东西, 来掌握事物内在的规律,帮助理解问题,帮助做决策。

这篇关于统计学到底给我什么的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1064078

相关文章

【H2O2|全栈】Markdown | Md 笔记到底如何使用?【前端 · HTML前置知识】

Markdown的一些杂谈 目录 Markdown的一些杂谈 前言 准备工作 认识.Md文件 为什么使用Md? 怎么使用Md? ​编辑 怎么看别人给我的Md文件? Md文件命令 切换模式 粗体、倾斜、下划线、删除线和荧光标记 分级标题 水平线 引用 无序和有序列表 ​编辑 任务清单 插入链接和图片 内嵌代码和代码块 表格 公式 其他 源代码 预

统计学(贾俊平)学习笔记--第三章、 数据预处理

数据预处理无论是从数据分类分析、数据信息抽取、数据挖掘、模型建立等方面都是需要的,也是数据工作者最开始招手做的,而统计学(贾俊平)中从理论的角度讲解了数据预处理的概念和方法吗,在此将主要要点列举如下,供有心人参考学些。       数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。          审核就是检查数据中是否有错误。从完整性和准

Linux block_device gendisk和hd_struct到底是个啥关系

本文的源码版本是Linux 5.15版本,有图有真相: 1.先从块设备驱动说起 安卓平台有一个非常典型和重要的块设备驱动:zram,我们来看一下zram这个块设备驱动加载初始化和swapon的逻辑,完整梳理完这个逻辑将对Linux块设备驱动模型有深入的理解。 zram驱动加载的时候会调用zram_add函数,源码如下: 1887/*1888 * Allocate and initia

MVVM到底是什么

MVVM到底是什么 文章目录 MVVM到底是什么一、MVVM是什么二、为什么这么定义1. 分离关注点2. 提高可维护性3. 数据绑定和事件驱动4. 支持前端框架的发展 三、底层逻辑1. ViewModel层2. 数据绑定3. 事件驱动4. 响应式系统 四、扩展与高级技巧1. 组件化开发2. 双向数据绑定3. 计算属性和侦听器4. 插槽

我们在学习Spark的时候,到底在学习什么?

我必须要说,Spark这个框架出现之前,我对很多大数据领域的框架源码甚至都是嗤之以鼻的。 很多小伙伴在群里或者私信留言问我关于Spark的学习路径问题。 Spark发展至今,应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面,基本可以吊打其他的大数据处理框架。 我之前发过一篇关于阅读Spark源码的文章:《Spark源码阅读的正确打开方式》

【硬刚大数据】我们在学习Flink的时候,到底在学习什么?

⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339 ⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流! ⭐⭐本文由【王知无】原创,首发于 CSDN博客! ⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载! 本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的面试部分补充。 这是一篇指南和大纲性质的文章。

【硬刚大数据】我们在学习Spark的时候,到底在学习什么?

欢迎关注博客主页:https://blog.csdn.net/u013411339 欢迎点赞、收藏、留言 ,欢迎留言交流!本文由【王知无】原创,首发于 CSDN博客!本文首发CSDN论坛,未经过官方和本人允许,严禁转载! 本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的面试部分补充。 很多小伙伴在群里或者私信留言问我关于Spark的学习路径问题。

WIFI贴项目到底是不是“骗局”呢?由我来揭秘!

各位亲爱的朋友们,大家好!我是你们的老朋友鲸天科技千千,一直在这片互联网的热土上耕耘。相信你们对我都不会陌生,因为我常常分享一些互联网上的新奇项目和实用技巧。如果你对我的内容感兴趣,别忘了点个关注哦! 首先很多人交了几千几万的学费入局,我想说你真的被割韭菜了,这个项目本身没什么技术性,都是赚广告收益,收加盟代理费就是在割韭菜,共享经济本身互利互惠,推广员在赚的同时公司也在其中谋利。 共享WiF

到底什么样的程序员算全栈程序员

        与其他互联网热词一样,”全栈“程序员也是英译过来的,英文全文是:Full-Stack Developer,你想啊,中国人民怎么会用客栈的栈、堆栈的栈来形容工程师呢?   谈论一个概念,首先得给伊个定义,一般来说,全栈工程师就是指技术多面手,掌握多种技能,能够独立完成 non-trivial application 的人。non-trivial 怎么解呢?就是有一定复杂度

java锁的到底是锁的什么??

锁住的内容 锁代码块 对多个线程使用的多个此类A的代码加锁,即使多个线程多个对象也 会只有一个线程进入到此代码块,与对象个数,线程个数无关。 实现方式 (1)类代码块  public  void a(){ synchronized(A.class){} } (2)静态lock对象 static  Lock lock=new ReetrantLock(); (3)静态方法  public