从零开始学统计 03 | 均值,方差,标准差

2024-06-02 22:58

本文主要是介绍从零开始学统计 03 | 均值,方差,标准差,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、均值

现在,假设已经拿到在实际的肝脏中大约 2400 亿个细胞的X基因表达值。

我们接下来,要计算总体均值与估计总体均值。
mark

现在使用实际的2400亿个细胞计算均值,也就是总体均值(Population Mean)

mark

mark

从总体中抽样 5 个样本,计算估计均值(Estimated Mean):

mark

统计学中,用符号x-bar (mark) 来表示估计均值,也叫样本均值(Sample Mean)

使用希腊符号μ来表示总体均值(Population Mean)

可以从上图看到,样本均值与总体均值不同,但是随着测量越来越多的数据,x-bar会越来越接近μ。

二、方差、标准差

mark

方差和标准差,代表数据是如何在总体均值周围分布的,计算总体方差的公式:

mark

  • x-μ, 代表从每个数据 x 中减去总体均值 μ。
  • x-μ 取平方,为了保证每个差异非负
  • 将每个样本的差异 (x-μ)^2,求和,
  • 除以样本数,为的是平均化平方后的差异

利用公式去计算,实际数据中的总体方差:

mark

因为每个数据都是经过平方的,所以方差的单位是X基因表达量的平方。

但是X轴上的单位并没有平方,所以在X轴上不能绘制方差。

为了解决这个问题,我们只要对每一项平方根就行:

mark

也就得到了总体标准差,很容易得到它的值:

mark

好,现在我们就可以利用均值和标准差来绘制正态分布曲线了:

总体方差和标准差来决定曲线的宽度,反应数据如何分布在总体均值周围

mark

但是,在实验中,我们不可能去一一测量2400亿个细胞,总体数据几乎不可能拿到。

所以,我们几乎不计算总体均值,总体方差,总体标准差。

我们一般是用小样本来估计总体均值,方差,标准差。

但是,我们在做实验的时候,看到的只是一堆数据,比如这样:

mark

我们可以很轻松的获得数据的均值

mark

但是,难受的是,我们根本看不到曲线或者总体均值

mark

这个时候就需要估计总体均值,

mark

给出计算公式:

mark

  • x-mark,代表从每个结果 x 中减去总体均值mark

  • n-1 是为了弥补我们计算的样本平均值而不是总体平均值的差异,否则会一直低估总体均值的方差。

    为什么要除以 n-1?

    这是因为实验数据和样本平均值之间的差异,往往小于数据和总体均值之间的差异。mark

    反应在曲线上:

    mark

    mark值会在μ的左右来回摆动,随着数据量的增多,无限接近μ

根据数据计算估计总体方差和标准差

mark

现在有了这些参数就可以画曲线了:

mark

与开始利用2400亿总体数据绘制的曲线比对下,可以发现我们实验与真实分布离的并不远:

mark

到目前为止,我们利用5个实验数据完成了估计总体数据,而且结果还不错,这样节省我我们大量的经历和时间。

三、总结

  • 如果我们有一个群体的所有数据,就可以直接计算总体均值。
  • 当没有群体全部数据时,可以利用部分样本数据使用相同的公式来估计总体均值。
  • 同样的,我们有一个群体的所有数据,就可以直接计算总体方差和标准差。
  • 当没有群体全部数据时,就不能用总体方差和标准差的公式了,这时候需要考虑用 n-1 去抵消样本平均值为总体均值说产生的差异。

致谢:

https://www.youtube.com/channel/UCtYLUTtgS3k1Fg4y5tAhLbw

这篇关于从零开始学统计 03 | 均值,方差,标准差的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1025325

相关文章

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

flume系列之:查看flume系统日志、查看统计flume日志类型、查看flume日志

遍历指定目录下多个文件查找指定内容 服务器系统日志会记录flume相关日志 cat /var/log/messages |grep -i oom 查找系统日志中关于flume的指定日志 import osdef search_string_in_files(directory, search_string):count = 0

hdu4267区间统计

题意:给一些数,有两种操作,一种是在[a,b] 区间内,对(i - a)% k == 0 的加value,另一种操作是询问某个位置的值。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import

hdu4417区间统计

给你一个数列{An},然后有m次查询,每次查询一段区间 [l,r] <= h 的值的个数。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamRead

hdu3333区间统计

题目大意:求一个区间内不重复数字的和,例如1 1 1 3,区间[1,4]的和为4。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;

实例:如何统计当前主机的连接状态和连接数

统计当前主机的连接状态和连接数 在 Linux 中,可使用 ss 命令来查看主机的网络连接状态。以下是统计当前主机连接状态和连接主机数量的具体操作。 1. 统计当前主机的连接状态 使用 ss 命令结合 grep、cut、sort 和 uniq 命令来统计当前主机的 TCP 连接状态。 ss -nta | grep -v '^State' | cut -d " " -f 1 | sort |

生信代码入门:从零开始掌握生物信息学编程技能

少走弯路,高效分析;了解生信云,访问 【生信圆桌x生信专用云服务器】 : www.tebteb.cc 介绍 生物信息学是一个高度跨学科的领域,结合了生物学、计算机科学和统计学。随着高通量测序技术的发展,海量的生物数据需要通过编程来进行处理和分析。因此,掌握生信编程技能,成为每一个生物信息学研究者的必备能力。 生信代码入门,旨在帮助初学者从零开始学习生物信息学中的编程基础。通过学习常用

FreeRTOS内部机制学习03(事件组内部机制)

文章目录 事件组使用的场景事件组的核心以及Set事件API做的事情事件组的特殊之处事件组为什么不关闭中断xEventGroupSetBitsFromISR内部是怎么做的? 事件组使用的场景 学校组织秋游,组长在等待: 张三:我到了 李四:我到了 王五:我到了 组长说:好,大家都到齐了,出发! 秋游回来第二天就要提交一篇心得报告,组长在焦急等待:张三、李四、王五谁先写好就交谁的

Python脚本:TXT文档行数统计

count = 0 #计数变量file_dirs = input('请输入您要统计的文件根路径:')filename = open(file_dirs,'r') #以只读方式打开文件file_contents = filename.read() #读取文档内容到file_contentsfor file_content in file_contents: