从零开始学统计 03 | 均值，方差，标准差

2024-06-02 22:58

文章标签 统计从零开始 03 均值方差标准差

本文主要是介绍从零开始学统计 03 | 均值，方差，标准差，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、均值

现在，假设已经拿到在实际的肝脏中大约 2400 亿个细胞的X基因表达值。

我们接下来，要计算总体均值与估计总体均值。
mark

现在使用实际的2400亿个细胞计算均值，也就是总体均值（Population Mean）

mark

mark

从总体中抽样 5 个样本，计算估计均值（Estimated Mean）：

mark

统计学中，用符号x-bar ( mark ) 来表示估计均值，也叫样本均值（Sample Mean）

使用希腊符号μ来表示总体均值（Population Mean）

可以从上图看到，样本均值与总体均值不同，但是随着测量越来越多的数据，x-bar会越来越接近μ。

二、方差、标准差

mark

方差和标准差，代表数据是如何在总体均值周围分布的，计算总体方差的公式：

mark

x-μ，代表从每个数据 x 中减去总体均值 μ。
x-μ 取平方，为了保证每个差异非负
将每个样本的差异 (x-μ)^2，求和，
除以样本数，为的是平均化平方后的差异

利用公式去计算，实际数据中的总体方差：

mark

因为每个数据都是经过平方的，所以方差的单位是X基因表达量的平方。

但是X轴上的单位并没有平方，所以在X轴上不能绘制方差。

为了解决这个问题，我们只要对每一项平方根就行：

mark

也就得到了总体标准差，很容易得到它的值：

mark

好，现在我们就可以利用均值和标准差来绘制正态分布曲线了：

总体方差和标准差来决定曲线的宽度，反应数据如何分布在总体均值周围

mark

但是，在实验中，我们不可能去一一测量2400亿个细胞，总体数据几乎不可能拿到。

所以，我们几乎不计算总体均值，总体方差，总体标准差。

我们一般是用小样本来估计总体均值，方差，标准差。

但是，我们在做实验的时候，看到的只是一堆数据，比如这样：

mark

我们可以很轻松的获得数据的均值

mark

但是，难受的是，我们根本看不到曲线或者总体均值

mark

这个时候就需要估计总体均值，

mark

给出计算公式：

mark

x-，代表从每个结果 x 中减去总体均值
n-1 是为了弥补我们计算的样本平均值而不是总体平均值的差异，否则会一直低估总体均值的方差。

为什么要除以 n-1？

这是因为实验数据和样本平均值之间的差异，往往小于数据和总体均值之间的差异。

反应在曲线上：

值会在μ的左右来回摆动，随着数据量的增多，无限接近μ

根据数据计算估计总体方差和标准差：

mark

现在有了这些参数就可以画曲线了：

mark

与开始利用2400亿总体数据绘制的曲线比对下，可以发现我们实验与真实分布离的并不远：

mark

到目前为止，我们利用5个实验数据完成了估计总体数据，而且结果还不错，这样节省我我们大量的经历和时间。

三、总结

如果我们有一个群体的所有数据，就可以直接计算总体均值。
当没有群体全部数据时，可以利用部分样本数据使用相同的公式来估计总体均值。
同样的，我们有一个群体的所有数据，就可以直接计算总体方差和标准差。
当没有群体全部数据时，就不能用总体方差和标准差的公式了，这时候需要考虑用 n-1 去抵消样本平均值为总体均值说产生的差异。

致谢：

https://www.youtube.com/channel/UCtYLUTtgS3k1Fg4y5tAhLbw

这篇关于从零开始学统计 03 | 均值，方差，标准差的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1025325。 23002807@qq.com

相关文章

Pandas统计每行数据中的空值的方法示例

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据（NaN值）是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值？为什么要统计空值？准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

阅读更多...

使用Pandas进行均值填充的实现

使用Pandas进行均值填充的实现

《使用Pandas进行均值填充的实现》缺失数据（NaN值）是一个常见的问题,我们可以通过多种方法来处理缺失数据,其中一种常用的方法是均值填充,本文主要介绍了使用Pandas进行均值填充的实现,感兴趣的... 目录什么是均值填充？为什么选择均值填充？均值填充的步骤实际代码示例总结在数据分析和处理过程中，缺失数

阅读更多...

Mysql如何将数据按照年月分组的统计

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》：本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

阅读更多...

一文详解SQL Server如何跟踪自动统计信息更新

一文详解SQL Server如何跟踪自动统计信息更新

《一文详解SQLServer如何跟踪自动统计信息更新》SQLServer数据库中,我们都清楚统计信息对于优化器来说非常重要,所以本文就来和大家简单聊一聊SQLServer如何跟踪自动统计信息更新吧... SQL Server数据库中，我们都清楚统计信息对于优化器来说非常重要。一般情况下，我们会开启"自动更新

阅读更多...

opencv实现像素统计的示例代码

opencv实现像素统计的示例代码

《opencv实现像素统计的示例代码》本文介绍了OpenCV中统计图像像素信息的常用方法和函数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 统计像素值的基本信息2. 统计像素值的直方图3. 统计像素值的总和4. 统计非零像素的数量

阅读更多...

如何使用 Bash 脚本中的time命令来统计命令执行时间(中英双语)

如何使用 Bash 脚本中的time命令来统计命令执行时间(中英双语)

《如何使用Bash脚本中的time命令来统计命令执行时间(中英双语)》本文介绍了如何在Bash脚本中使用`time`命令来测量命令执行时间,包括`real`、`user`和`sys`三个时间指标,... 使用 Bash 脚本中的 time 命令来统计命令执行时间在日常的开发和运维过程中，性能监控和优化是不

阅读更多...

hdu1496（用hash思想统计数目）

hdu1496（用hash思想统计数目）

作为一个刚学hash的孩子，感觉这道题目很不错，灵活的运用的数组的下标。解题步骤：如果用常规方法解，那么时间复杂度为O（n^4）,肯定会超时，然后参考了网上的解题方法，将等式分成两个部分，a*x1^2+b*x2^2和c*x3^2+d*x4^2，各自作为数组的下标，如果两部分相加为0，则满足等式；代码如下： #include<iostream>#include<algorithm

阅读更多...

cross-plateform 跨平台应用程序-03-如果只选择一个框架，应该选择哪一个?

cross-plateform 跨平台应用程序-03-如果只选择一个框架，应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈？ cross-plateform 跨平台应用程序-03-如果只选择一个框架，应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

阅读更多...

flume系列之：查看flume系统日志、查看统计flume日志类型、查看flume日志

flume系列之：查看flume系统日志、查看统计flume日志类型、查看flume日志

遍历指定目录下多个文件查找指定内容服务器系统日志会记录flume相关日志 cat /var/log/messages |grep -i oom 查找系统日志中关于flume的指定日志 import osdef search_string_in_files(directory, search_string):count = 0

阅读更多...

hdu4267区间统计

hdu4267区间统计

题意：给一些数，有两种操作，一种是在[a,b] 区间内，对（i - a）% k == 0 的加value,另一种操作是询问某个位置的值。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import

阅读更多...