数理统计与描述性统计

2024-02-14 03:08

本文主要是介绍数理统计与描述性统计,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、数理统计概念

注: 主要参考Datawhale课程资料,此处仅做大纲梳理,以便日后迅速回顾

1、基本概念

定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。
样本的两重性:一经抽样便是一组确定数值;但在通常描述中样本也是一组随机变量,因为抽样本身就是随机的

2、常用统计量

1、样本均值:通常使用样本均值来估计总体分布的均值和对有关总体分布均值的假设做检验
2、样本方差:通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设做检验
3、k阶样本原点矩:k阶原点矩是随机变量x“偏离”原点(0,0)的“距离”的k次方的期望值。一般地,对于正整数k,如果E|(X-0)k|=E|Xk|=<∞,故称E(Xk) 为随机变量X的k阶原点矩。
4、k阶样本中心矩:k阶中心矩是随机变量x“偏离”其中心的“距离”的k次方的期望值。一般均以其平均数为“中心”。故,对于正整数k,如果E(X)存在,“偏离”E(x)的k次方的期望值存在、且E[|X - E(X)|k)]<∞,则称E{[X-E(X)]k}为随机变量X的k阶中心矩。如X的方差是X的二阶中心矩,即D(X)=E{[X-E(X)]2} 等。
5、顺序统计量:就是将样本按从小到大排序为x(1),x(2), …,x(n),则称X(1),X(2), …,X(n)为顺序统计量

二、描述性统计

1、数据集中趋势的度量

1 平均数
2 中位数
3 频数
4 众数
5 百分位数

python实现
#NumPy系统是Python的⼀一种开源的数值计算扩展。⽤用来存储和处理理⼤大型矩阵。
##平均数
import numpy as np
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_mean = np.mean(a) #均值
a_med = np.median(a) #中位数
print("a的平均数:",a_mean)
print("a的中位数:",a_med)
#------------------------------------------------------------
##众数
from scipy import stats
'''
Scipy是⼀一个⾼高级的科学计算库,Scipy⼀一般都是操控Numpy数组来进⾏行行科学计算,
Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅⾥里里叶变换、
信号处理理和图像处理理、常微分⽅方程求解和其他科学与⼯工程中常⽤用的计算。
'''
a_m1 =stats.mode(a)[0][0]
print("a的众数:",a_m)
#-------------------------------------------------------------
import pandas as pd
#将⼀一维数组转成Pandas的Series,然后调⽤用Pandas的mode()⽅方法
ser = pd.Series(a)
a_m2 = ser.mode()
print("a的众数:",a_m)
2、数据离散趋势的度量

1、方差
2、标准差
3、极差
4、变异系数
5、四分位差

Python实现
import numpy as np
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_var = np.var(a) #方差
a_std1 = np.sqrt(a_var) #标准差
a_std2 = np.std(a) #标准差
a_mean = np.mean(a) #均值
a_cv = a_std2 /a_mean #变异系数
print("a的方差:",a_var)
print("a的标准差:",a_std1)
print("a的标准差:",a_std2)
print("a的变异系数:",a_cv)
3、分布特征

引言:描述一个随机变量,不仅要说明它能够取那些值,而且还要关心它取这些值的概率
1、离散变量与随机变量:前者是数值是以自然数或整数来表示的,如班级人数,电脑台数等;而后者是在一定区间内可以取任意值的,如人体的身高,体重等
2、概率函数:使用函数的形式来表达概率
3、分布函数:一个随机变量在一区间内取值的表现规律
4、正态分布:是最常见的连续概率分布,又称为高斯分布
标准正态分布和对应区间上积分(面积)的百分比

4、偏度与峰度

偏度:也称为偏态,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度刻画的是分布函数(数据)的对称性情况。
峰度:说明的是分布曲线在平均值处峰值高低的特征数。直观来看,峰度反映了峰部的尖度。峰度刻画的是分布函数的集中和分散程度。
在这里插入图片描述

python实现
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data = list(np.random.randn(10000))
#⽣生成标准正态分布的随机数(10000个)
plt.hist(data,1000,facecolor='g',alpha=0.5)
'''
plt.hist(arr, bins=10, facecolor, edgecolor,alpha,histtype='bar')
bins:直⽅方图的柱数,可选项,默认为10
alpha: 透明度
'''
plt.show()
s = pd.Series(data) #将数组转化为序列列
print('偏度系数',s.skew())
print('峰度系数',s.kurt())
效果图

在这里插入图片描述

这篇关于数理统计与描述性统计的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/707347

相关文章

opencv实现像素统计的示例代码

《opencv实现像素统计的示例代码》本文介绍了OpenCV中统计图像像素信息的常用方法和函数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 统计像素值的基本信息2. 统计像素值的直方图3. 统计像素值的总和4. 统计非零像素的数量

如何使用 Bash 脚本中的time命令来统计命令执行时间(中英双语)

《如何使用Bash脚本中的time命令来统计命令执行时间(中英双语)》本文介绍了如何在Bash脚本中使用`time`命令来测量命令执行时间,包括`real`、`user`和`sys`三个时间指标,... 使用 Bash 脚本中的 time 命令来统计命令执行时间在日常的开发和运维过程中,性能监控和优化是不

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm

flume系列之:查看flume系统日志、查看统计flume日志类型、查看flume日志

遍历指定目录下多个文件查找指定内容 服务器系统日志会记录flume相关日志 cat /var/log/messages |grep -i oom 查找系统日志中关于flume的指定日志 import osdef search_string_in_files(directory, search_string):count = 0

hdu4267区间统计

题意:给一些数,有两种操作,一种是在[a,b] 区间内,对(i - a)% k == 0 的加value,另一种操作是询问某个位置的值。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import

hdu4417区间统计

给你一个数列{An},然后有m次查询,每次查询一段区间 [l,r] <= h 的值的个数。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamRead

hdu3333区间统计

题目大意:求一个区间内不重复数字的和,例如1 1 1 3,区间[1,4]的和为4。 import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;

实例:如何统计当前主机的连接状态和连接数

统计当前主机的连接状态和连接数 在 Linux 中,可使用 ss 命令来查看主机的网络连接状态。以下是统计当前主机连接状态和连接主机数量的具体操作。 1. 统计当前主机的连接状态 使用 ss 命令结合 grep、cut、sort 和 uniq 命令来统计当前主机的 TCP 连接状态。 ss -nta | grep -v '^State' | cut -d " " -f 1 | sort |

Python脚本:TXT文档行数统计

count = 0 #计数变量file_dirs = input('请输入您要统计的文件根路径:')filename = open(file_dirs,'r') #以只读方式打开文件file_contents = filename.read() #读取文档内容到file_contentsfor file_content in file_contents:

【Python 千题 —— 算法篇】字符统计

Python 千题持续更新中 …… 脑图地址 👉:⭐https://twilight-fanyi.gitee.io/mind-map/Python千题.html⭐ 题目背景 在编程中,对字符串的字符统计是一个常见任务。这在文本处理、数据分析、词频统计、自然语言处理等领域有广泛应用。无论是统计字母出现的频率,还是分析不同字符类型的数量,字符串字符统计都是非常有用的技术。 字符统