python统计分析——单变量分布之量化变异度

2024-03-17 07:12

本文主要是介绍python统计分析——单变量分布之量化变异度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考资料:python统计分析【托马斯】

1、极差

        极差仅仅是最高值和最低值之间的差异。使用函数为:numpy.ptp()。代码如下:

import numpy as npx=np.arange(1,11)
np.ptp(x)

        ptp代表“峰值到峰值”,唯一应该注意的异常值,即数据点的值比其他数据高或低很多。通常,这些点是由于样本选择或测量过程中的错误引起的。

        有许多检查异常值的测试。其中之一检查那些高于第三分位数1.5×四分位距(IQR)或低于第一分位数1.5×四分位距(IQR)的数据。

2、百分位数

        弄懂百分位数的最简单方法,就是首先定义累计分布函数(CDF):

CDF(x)=\int_{-\infty }^{x}PDF(x)dx

        CDF是PDF(概率密度函数)从负无穷大到给定值的积分,因此确定了低于该值的数据的百分比。了解了CDF之后,计算在a~b范围内知道值x的可能性就简单了:在a和b之间找到值得概率可由该范围内PDF的积分得到,并且可以通过相应的CDF值的差来得到:

P(a\leqslant X\leqslant b)=\int_{a}^{b}PDF(x)dx=CDF(b)-CDF(a)

        对于离散分布来说,积分就由求和代替。

        回到百分位数:这些只是CDF的逆函数,其给出低于数据中特定百分比的数据的值。虽然“百分位数”这个表达并不常常出现,但经常会遇到特定的百分位数。如下:

        ①为了获得包含95%的数据范围,我们必须找到 样本分布的2.5分位数和97.5分位数。

        ②50分位数就是中位数。

        ③另一个重要的就是四分位数,即25和75分位数。它们之间的差值称为四分位距(IQR).

3、标准差和方差

        样本方差的极大似然估计如下:

var=\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n}

        但上式系统性地低估了总体方差,因此本称为总体方差的“有偏估计”。换句话说,如果你选择了特定总体标准差的人群,并且重复1000次从该人群中选择n个随机样本,并计算每个样本的标准偏差,则这些样本标准差的平均值将低于总体表标准差。

        我们总是使用样本均值,使得给定的样本数据方差最小化,从而低估了总体的方差。所以群体方差的最佳无偏估计应该是:

var=\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1}

        本式即为样本方差。

        标准差是方差的平方根,样本标准差是样本方差的平方根:

s=\sqrt{var}

        在统计学中通常用σ表示总体标准差,用s表示样本标准差。

        python标准差函数为:numpy.std(),方差函数为:numpy.var();参数设置可参考:python统计分析——单变量描述统计-CSDN博客

代码操作如下:

data=np.arange(7,14)
# numpy默认用n还计算方差和标准差,即ddof=0。
# 为了能够得到样本方差和标准差,须设置ddof=1
np.std(data,ddof=1)

4、标准误

        标准误是系数标准差的估计。对于正态分布的数据,均值的样本标准误差(SE或SEM)是:

SEM=\frac{s}{\sqrt{n}}=\sqrt{\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1}}\times \frac{1}{\sqrt{n}}

5、置信区间

        在数据的统计分析中,经常估计参数的置信区间。α%的置信区间(CI)表示包含参数的真实值的范围,其可能性为α%。

        如果采样分布式对称的和单峰的(也就是说,在最大值的两边平滑地衰减),通常可以用下面公式来估计置信区间:

ci=mean\pm std \times N_{PPF}(\frac{1-\alpha}{2})

        其中,std为标准差,N_PPF是标准正态分布分布的百分点函数(PPF)。要计算95%的双侧置信区间,须计算标准正态分布分布的PPF(0.025),来得到置信区间的上下限。

        注①:计算平均值的置信区间,标准差必须用标准误代替

        注②:如果分布是偏斜的,上面的公式就不再适用。

这篇关于python统计分析——单变量分布之量化变异度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/818207

相关文章

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

如何通过Python实现一个消息队列

《如何通过Python实现一个消息队列》这篇文章主要为大家详细介绍了如何通过Python实现一个简单的消息队列,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录如何通过 python 实现消息队列如何把 http 请求放在队列中执行1. 使用 queue.Queue 和 reque

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import

Python Jupyter Notebook导包报错问题及解决

《PythonJupyterNotebook导包报错问题及解决》在conda环境中安装包后,JupyterNotebook导入时出现ImportError,可能是由于包版本不对应或版本太高,解决方... 目录问题解决方法重新安装Jupyter NoteBook 更改Kernel总结问题在conda上安装了

Python如何计算两个不同类型列表的相似度

《Python如何计算两个不同类型列表的相似度》在编程中,经常需要比较两个列表的相似度,尤其是当这两个列表包含不同类型的元素时,下面小编就来讲讲如何使用Python计算两个不同类型列表的相似度吧... 目录摘要引言数字类型相似度欧几里得距离曼哈顿距离字符串类型相似度Levenshtein距离Jaccard相

Python安装时常见报错以及解决方案

《Python安装时常见报错以及解决方案》:本文主要介绍在安装Python、配置环境变量、使用pip以及运行Python脚本时常见的错误及其解决方案,文中介绍的非常详细,需要的朋友可以参考下... 目录一、安装 python 时常见报错及解决方案(一)安装包下载失败(二)权限不足二、配置环境变量时常见报错及

Python中顺序结构和循环结构示例代码

《Python中顺序结构和循环结构示例代码》:本文主要介绍Python中的条件语句和循环语句,条件语句用于根据条件执行不同的代码块,循环语句用于重复执行一段代码,文章还详细说明了range函数的使... 目录一、条件语句(1)条件语句的定义(2)条件语句的语法(a)单分支 if(b)双分支 if-else(

Python itertools中accumulate函数用法及使用运用详细讲解

《Pythonitertools中accumulate函数用法及使用运用详细讲解》:本文主要介绍Python的itertools库中的accumulate函数,该函数可以计算累积和或通过指定函数... 目录1.1前言:1.2定义:1.3衍生用法:1.3Leetcode的实际运用:总结 1.1前言:本文将详

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操