python统计分析——单变量分布之量化变异度

2024-03-17 07:12

本文主要是介绍python统计分析——单变量分布之量化变异度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考资料:python统计分析【托马斯】

1、极差

        极差仅仅是最高值和最低值之间的差异。使用函数为:numpy.ptp()。代码如下:

import numpy as npx=np.arange(1,11)
np.ptp(x)

        ptp代表“峰值到峰值”,唯一应该注意的异常值,即数据点的值比其他数据高或低很多。通常,这些点是由于样本选择或测量过程中的错误引起的。

        有许多检查异常值的测试。其中之一检查那些高于第三分位数1.5×四分位距(IQR)或低于第一分位数1.5×四分位距(IQR)的数据。

2、百分位数

        弄懂百分位数的最简单方法,就是首先定义累计分布函数(CDF):

CDF(x)=\int_{-\infty }^{x}PDF(x)dx

        CDF是PDF(概率密度函数)从负无穷大到给定值的积分,因此确定了低于该值的数据的百分比。了解了CDF之后,计算在a~b范围内知道值x的可能性就简单了:在a和b之间找到值得概率可由该范围内PDF的积分得到,并且可以通过相应的CDF值的差来得到:

P(a\leqslant X\leqslant b)=\int_{a}^{b}PDF(x)dx=CDF(b)-CDF(a)

        对于离散分布来说,积分就由求和代替。

        回到百分位数:这些只是CDF的逆函数,其给出低于数据中特定百分比的数据的值。虽然“百分位数”这个表达并不常常出现,但经常会遇到特定的百分位数。如下:

        ①为了获得包含95%的数据范围,我们必须找到 样本分布的2.5分位数和97.5分位数。

        ②50分位数就是中位数。

        ③另一个重要的就是四分位数,即25和75分位数。它们之间的差值称为四分位距(IQR).

3、标准差和方差

        样本方差的极大似然估计如下:

var=\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n}

        但上式系统性地低估了总体方差,因此本称为总体方差的“有偏估计”。换句话说,如果你选择了特定总体标准差的人群,并且重复1000次从该人群中选择n个随机样本,并计算每个样本的标准偏差,则这些样本标准差的平均值将低于总体表标准差。

        我们总是使用样本均值,使得给定的样本数据方差最小化,从而低估了总体的方差。所以群体方差的最佳无偏估计应该是:

var=\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1}

        本式即为样本方差。

        标准差是方差的平方根,样本标准差是样本方差的平方根:

s=\sqrt{var}

        在统计学中通常用σ表示总体标准差,用s表示样本标准差。

        python标准差函数为:numpy.std(),方差函数为:numpy.var();参数设置可参考:python统计分析——单变量描述统计-CSDN博客

代码操作如下:

data=np.arange(7,14)
# numpy默认用n还计算方差和标准差,即ddof=0。
# 为了能够得到样本方差和标准差,须设置ddof=1
np.std(data,ddof=1)

4、标准误

        标准误是系数标准差的估计。对于正态分布的数据,均值的样本标准误差(SE或SEM)是:

SEM=\frac{s}{\sqrt{n}}=\sqrt{\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1}}\times \frac{1}{\sqrt{n}}

5、置信区间

        在数据的统计分析中,经常估计参数的置信区间。α%的置信区间(CI)表示包含参数的真实值的范围,其可能性为α%。

        如果采样分布式对称的和单峰的(也就是说,在最大值的两边平滑地衰减),通常可以用下面公式来估计置信区间:

ci=mean\pm std \times N_{PPF}(\frac{1-\alpha}{2})

        其中,std为标准差,N_PPF是标准正态分布分布的百分点函数(PPF)。要计算95%的双侧置信区间,须计算标准正态分布分布的PPF(0.025),来得到置信区间的上下限。

        注①:计算平均值的置信区间,标准差必须用标准误代替

        注②:如果分布是偏斜的,上面的公式就不再适用。

这篇关于python统计分析——单变量分布之量化变异度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/818207

相关文章

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

变量与命名

引言         在前两个课时中,我们已经了解了 Python 程序的基本结构,学习了如何正确地使用缩进来组织代码,并且知道了注释的重要性。现在我们将进一步深入到 Python 编程的核心——变量与命名。变量是我们存储数据的主要方式,而合理的命名则有助于提高代码的可读性和可维护性。 变量的概念与使用         在 Python 中,变量是一种用来存储数据值的标识符。创建变量很简单,

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

nudepy,一个有趣的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个有趣的 Python 库 - nudepy。 Github地址:https://github.com/hhatto/nude.py 在图像处理和计算机视觉应用中,检测图像中的不适当内容(例如裸露图像)是一个重要的任务。nudepy 是一个基于 Python 的库,专门用于检测图像中的不适当内容。该

pip-tools:打造可重复、可控的 Python 开发环境,解决依赖关系,让代码更稳定

在 Python 开发中,管理依赖关系是一项繁琐且容易出错的任务。手动更新依赖版本、处理冲突、确保一致性等等,都可能让开发者感到头疼。而 pip-tools 为开发者提供了一套稳定可靠的解决方案。 什么是 pip-tools? pip-tools 是一组命令行工具,旨在简化 Python 依赖关系的管理,确保项目环境的稳定性和可重复性。它主要包含两个核心工具:pip-compile 和 pip

HTML提交表单给python

python 代码 from flask import Flask, request, render_template, redirect, url_forapp = Flask(__name__)@app.route('/')def form():# 渲染表单页面return render_template('./index.html')@app.route('/submit_form',

Python QT实现A-star寻路算法

目录 1、界面使用方法 2、注意事项 3、补充说明 用Qt5搭建一个图形化测试寻路算法的测试环境。 1、界面使用方法 设定起点: 鼠标左键双击,设定红色的起点。左键双击设定起点,用红色标记。 设定终点: 鼠标右键双击,设定蓝色的终点。右键双击设定终点,用蓝色标记。 设置障碍点: 鼠标左键或者右键按着不放,拖动可以设置黑色的障碍点。按住左键或右键并拖动,设置一系列黑色障碍点

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目