统计学到底给我什么

2024-06-15 17:18
文章标签 统计学 到底

本文主要是介绍统计学到底给我什么,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2018/11/04
长久以来,总是自己相信也好,别人告诉也好,就说统计学非常有用。
可是自己也是看了统计学的书,当然,有很大原因是自己看书不够专注,导致最后的结果就是看了这么久,一直看不出什么效果。就是那种,感觉他很有用,但是又用不出来的感觉。
但是最近又有这种感觉,可能他就是这个原因呢,就是不能给我多好的实践出来的感觉。(说这句话,让我感觉,就是还是因为没有实践的机会)
举一个比较恰当的例子,数据可视化。
这个东西的内容,要远比统计学少的多,但我依然觉得这个东西很有用, 但每次学发现,就是那些基础的东西,每次看别人说都是那些东西。看来,我这个学习的过程是不对的,我一直都弄错了。这个东西我得好好研究一下。


这次趁这个机会,我把刚刚看的这本书的内容给梳理一下,同时也思考一下,统计学到底能给我什么。看的这本书的名字叫《mind on statistics》,按照该书的目录进行梳理,过程中注重这部分内容对我后续机器学习过程的可能影响。

1、简介

2、转化数据为信息
这部分属于机器学习中的预处理部分,将原始数据转化为相应的特征向量,根据自己对各个数据意义的真实理解,进行相应的转换。

书中对这部分内容的划分主要有以下几个部分:数据类型,如何简单的作图来说明变量之间的关系,如何处理异常点(这个内容是我原来一直没有做过的,但也是当时听过的),探究数据分布。

注意,日常生活中很多数据的分布都是正态分布,我没有真实做过,我不敢妄下判断。我觉得,正态分布的假设,应该能给出很大的信息量,估计最有效的,就是那种,两个正态分布的图。

3、采样:如何做调查和问问题
该部分的内容集中在如何采样上,以及采样之后,对样本与总体之间的关系的一些统计数据。

相对应于机器学习部分,交叉验证可能是最好的说明部分,虽然有些数据会利用置信度什么的,但大多数情况下,机器学习都没有利用这部分信息,可能是因为最终之后,总归要用全部数据来做一个样本训练。
但我也想起来一个可用的地方。那就是大数据情况下,该怎么采样。原来的时候一直关注一个问题,就是如何得到有代表性的数据,采样时候才用的策略,估计也应该是一个考虑的因素。从另一个角度来讲,我如果获得了不具有代表性的,我怎么检测出来。

4、从数据关联性中获取有用信息
这一章着眼于如何主观的设计实验来达到关联性检测的要求。对其内容就先不看了,因为后面的内容才是我真正想要的。

(这部分一直以来,最直观的认识,就是一个正相关负相关,即使是看别人的博客,看别人的各种问答,都没办法得到多少有用的信息,我不知道这个东西是不是可以深入,我特别想从这个点入手,来达到一定的掌握度。特别是机器学习过程中,我想知道每个输入变量与输出变量之间的这个具体关系,另一方面,就是我想知道这个东西我能获取到什么样的知识。)

5、数量型变量之间的关系
这一章值得重点关注。按照目录的说法,有以下几点:从散点图中获取模式、米利用回归线来描述线性模式、测量关联的强度和方向。最后一个部分说,关联不代表着是产生的因素。

对于回归类的研究而言,数量型的关联研究基本是必做的,我感觉也没什么好说的,因为本身你就是要从一个公式推导的角度入手(当然不是绝对的)。所以针对这种更久不必多说。相应的,如果我想知道两个输入变量之间的关联是不是也能这么做,这就对后期机器学习过程中的特征工程的意义很重大。

6、分类型变量之间的关系
针对这种变量,好像整体的策略都变得不一样了。目录:展示分类型变量之间的关系、风险,相对风险(这个是什么玩意??),6.3 The Effect of a Third Variable and Simpson’s Paradox,最后一个不知道是什么。

在机器学习的分类学习中,这种分析更有意义,一般情况下,分类的结果是类别,而不是数值。那么针对输入变量同样为分类变量,这样分析可以达到同数量型变量一样的效果。
这里产生一个问题:我怎么样去描述数量型变量和分类型变量的关系呢。这是个问题。

7-8 概率与随机变量
这两章基本就很熟悉了,不过第7章中几个条目吸引了我:找到概率的几个原则、找到复杂概率的策略、利用仿真来模拟概率(这个,有点意思哦,如果我事先并不知道概率是是什么样的, 我怎么去仿真???还是我理解错了???)

这里就不仔细赘述了。

9、理解样本分布:统计作为随机变量 10-11
这个翻译感觉不对,但是我自己翻译和百度翻译的都是这个。。在没看具体内容之前,我觉得应该是说明利用样本来说明一些统计量的,一定要区分开样本均值这种东西。

这部分也是我认为的统计学真正的内容,就是利用样本来推到整体上的数据分布。但是感觉这部分的内容好像还是有点不太理解。虽然,他前面提到了做调查的时候一些内容,用以获取代表性的数据。
而10-11的内容集中在估计一些参数上,这些也时当时关注过的。
对这部分内容,我还真想不起来好的关联点把他和机器学习的部分结合起来。可能最好的办法,就是最开始进行数据分析的部分把。

12-13 假设检验
同样是当时上课时候的内容,但是仔细想想,我好像一点也不记得了。。。

14、关于简单回归的一些推导

15、对于分类型变量的推导

16、方差分析
这个点,因为前几天我也一直关注方差的一些作用,就比如协方差这些东西。不知道这一张能不能给我带来什么帮助。


17章就不说了,从这个目录上来看,基本上的内容跟我在实验室看到的这个数理统计的书的内容一样。另外,从开始进行推导的部分开始,基本上就对我来说,都是陌生的,都是目前来讲,以我对机器学习的理解,没什么作用的。
但是我觉得如果我为了发现这些关联去学,就有点失去了真正的意义,所以,我还是学习机器学习,然后得到一定的理解之后,再来看。

你看,这个标题,可能我给出的答案就是,统计学,可能真的给不了我什么。
话肯定不要说绝,自然是期待能得到很多应用的内容。


2018/11/22
学习的过程中,发现学习的内容都比较散,没有将很多东西关联起来。可能这就是自学的一个弊端吧,特别是统计学这个东西,我基本都是想起来一个东西就学一下,没有一个系统性,虽然这个post就是为了想串一下。
2018/11/24
关于真正的这个统计学的思维,我还是没太弄明白什么样子。特别是,因为目前机器学习的东西,一直没有和统计学结合起来。
或者说,就是往好了说,我已经学会了这个东西,但就是没有把这个东西真正的利用起来???

按照我现在的想法,统计学的思维应该是一种处理数据的思维,从数据中得到知识(说的好像是数据挖掘),最简单的例子就是利用数据做决策,但是数据大小的制约,需要我们采用一些手段来完成通过小样本窥探整个数据的效果。还有另外一个方面,就是变量的关系分析。

2018/11/24
今天看了一个书的部分章节(统计思维),只能说,看完之后,脑子里就是一顿浆糊,这个写的就是太脱离实际了。也有可能,是我自身的理解能力不够,所以看不太懂。
语言太过抽象了,看起来就比较吃力。

针对统计思维的问题,有一个概念叫做不确定性,而统计从数据中获取知识的过程就是一个消除或者尽可能减少不确定性的过程。日常生活中的各种问题,都存在着不确定性, 通过减少这个东西, 来掌握事物内在的规律,帮助理解问题,帮助做决策。

这篇关于统计学到底给我什么的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1064078

相关文章

PAT-1039 到底买不买(20)(字符串的使用)

题目描述 小红想买些珠子做一串自己喜欢的珠串。卖珠子的摊主有很多串五颜六色的珠串,但是不肯把任何一串拆散了卖。于是小红要你帮忙判断一下,某串珠子里是否包含了全部自己想要的珠子?如果是,那么告诉她有多少多余的珠子;如果不是,那么告诉她缺了多少珠子。为方便起见,我们用[0-9]、[a-z]、[A-Z]范围内的字符来表示颜色。例如,YrR8RrY是小红想做的珠串;那么ppRYYGrrYBR2258可以

http:与https:到底有哪些区别?

http和https使用的是完全不同的连接方式,用的端口也不一样,前者是80,后者是443。http的连接很简单,是无状态的,... HTTPS协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议要比http协议安全

「Bionano系列」下机数据的BNX文件到底说了什么

最近我拿到了一批Bionano数据,用关键字 “Bionano+组装” 进行检索时,并没有发现任何的教程,所以这应是中文网络世界里第一个Bionano数据分析系列 Bionano技术简单来说,就是给分子加上荧光标记,然后拍照,所以最原始的下机数据就是TIFF格式,但是用户拿到的一般都是经AutoDetect/IrysView 转换过的BNX格式。这篇文章主要就是讲讲BNX格式的具体含义。

jquery中的this 到底是什么意思? $(this)

转载:http://zhidao.baidu.com/link?url=fz1jXYe2OrGWAq2GTJzDRJ3W0Dlxxsdaxu0jR520VLMG-bpesV58S4ccUOZ3Yj_HAqa-twA7iDlSagCZHPloQK 如果你学过面向对象语言的话,例如JAVA,你应该明白这个this在JAVA里的意思,简单的说,谁在调用它,它就代表文谁。那么,用到这个jquery里

mysql中的datetime类型在Java中到底对应哪个时间类型?

因为MySQL中用的是datetime类型(年月日 时分秒) java.sql.Date 在Java中用 java.sql.Date 接收 但是得到的却只有年月日 前端接收到的是时间戳 java.time.LocalDateTime 在Java中使用 java.time.LocalDateTime 接收 得到的是带时区的时间  前端接收到的是 显然不方便处理 jav

Is my business data safe in cloud? NetSuite到底安全吗?

NetSuite 产品群QQ:779253701 73% companies are planning to move to cloud in 2 years. Why? Oracle + NetSuite, 4 powerful layers of security 1. Multiple Redundant Oracle Data Centers. Your informati

什么是nginx到底怎么配置,什么是网关到底怎么配置?

那使用upstream里面具体哪个服务器是怎么决定和区分的呢? AI生成 在Nginx中,使用upstream里面具体哪个服务器是通过负载均衡算法来决定的。upstream块定义了一组服务器,Nginx会根据配置的负载均衡算法来选择一个服务器来处理当前的请求。常见的负载均衡算法包括轮询(round-robin)、最少连接(least_conn)、IP哈希(ip_hash)等。 以下是如何决定使用

IA的统计学基础:深入解析与实践应用

IA的统计学基础:深入解析与实践应用 在数据泛滥的信息化时代,统计学作为解读数据语言的关键工具,对于任何希望从数据中提取价值的专业人士来说都是必修课。本文将从统计学的基本概念入手,深入探讨其技术细节,并展示如何将这些技术应用于实际问题解决中。 统计学的定义与重要性 统计学是数据分析的科学,它提供了一套量化数据特征、建模数据关系和做出推断决策的方法。统计学的应用遍及科学研究、工业生产、经济管理

人人都说地信就业难,GIS到底为什么就业难?2024年GIS毕业生就业有哪些方向?

GIS专业发展历史 我国从20世纪80年代初引进和研究地理信息系统(GIS) 以来,经过30年的飞速发展,地理信息已成为信息时代重要的组成部分之一,被广泛应用于多个领域的建模和决策支持。 在国家数字化政策的加持下,GIS更成为新基建下的不可或缺的重要技术之一。 地理信息系统的教育随着地理信息系统的广泛应用也有了跨越性的发展,自1999年全国开始招收地理信息系统本科专业以来,至今已超过160所

JSP中的%= %和${ }到底有什么区别?

前言 一点点小小的记录,在JSP中的<%= %>和${ }到底有什么区别?频繁的使用,混搭,但是不知道区别在哪里 正文   后来查找了相关的资料,只这么解答的: (1)${}自动从内置对象中查找值 (2)<%=%>须明确指定从哪个对象里取值 例 <%=x%> 取当前页面的x 值 <%=request.getAttrbutr("x")%>取requ