泛统计理论初探——高阶描述统计指标

2023-10-06 21:59

本文主要是介绍泛统计理论初探——高阶描述统计指标,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

统计学习-高阶统计指标

再谈描述性统计指标
在上一篇文章中,我们探讨了一些最常见的统计指标:比如中位数,平均数,众数等指标。其实上一篇文章讨论的都是一阶的统计指标,即根据当前的数据能够直接计算或观察得到的指标,这种一阶指标不需要再借助其他指标去做进一步计算的。那么既然有一阶指标,就会有二阶的指标以及高阶的指标。因此在本文中,我们将会介绍几种高阶的统计指标,并阐述如何在实际情况中去使用这些指标,从而帮助使用者尽快认知当前数据的一些特性,从而更好地去处理实际问题。
首先我们要探讨的是标准差这个指标,它是由方差开平方根得到的指标。而方差的计算会用到平均值,所以使用者应该首先根据数据计算得出均值,然后根据均值开始计算方差,即计算每个样本与均值的距离平方和,最后把所有的距离平方和加到一起,得出方差。根据上述的表达,其实本质上来说,方差就是一个数据散度的指标,即方差越大,数据的散度越大,数据波动性较大,离均值远的样本较多。而方差越小,则说明数据的散度越小,数据较为稳定,离均值近的样本较多。方差这个指标在数据竞赛中,通常被作为体现数据波动的一个指标,如果数据在某一维度的方差较大,则要注意是否需要使用对数函数进行数据压缩,或是使用Box-Cox变换等。因为如果不做处理的话,后期会影响整体的模型参数,存在异方差等问题,所以要多加注意。
其次我们来谈谈偏度,偏度是一种三阶的统计指标,它用来反映数据偏度情况,可以用来观察数据的分布情况,进一步认识数据是否均匀,如果右偏,则要将数据进行某种程度的放大;如果左偏,则要将数据进行某种程度的压缩。在某种程度上,如果数据是左偏或右偏,需要进行数据变换处理,从而达到正态分布,为后续的分析做铺垫。
在这里插入图片描述
根据上图,左边的曲线是右偏,它的偏度系数大于0。右边的曲线是左偏,它的偏度系数小于0。而偏度的计算其实有两种,一种是基于众数的计算,一种是基于平均数的计算。
在这里插入图片描述
上面的左边的公式就是根据众数计算得到的,其中分母是标准差,M0代表众数。如果SK值大于0,代表右偏;SK值小于0,代表左偏。其中SK的绝对值代表偏态的程度,绝对值越大代表偏的越厉害。而右边的两个式子则是根据平均值进行计算得到的偏度。
在这里插入图片描述
最后我们再来探讨峰度这个指标,这个指标主要是反映数据的分布的凸起程度以及尾部的粗细程度。根据这个指标我们可以看出数据的分布到底是分布在离平均值附近还是远离平均值。它本质上是一种四阶指标,而在表达式的后面我们看到减去了3,因为正态分布的峰度值为3,所以峰度如果大于0则代表数据非常集中,两边的数据较少,即股票的每日交易数据,每天的交易价格都在当日的平均值附近。而如果峰度小于0,则代表数据区分度较低,类似于均匀分布。
总的来说,理解标准差、偏度、峰度这些指标对使用者了解数据的特征有利,因为这些高阶指标可以大致的让数据使用者看清数据的分布形态,并根据分布形态去进行一些数据的放缩处理,最终使得数据近似为正态分布。

这篇关于泛统计理论初探——高阶描述统计指标的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/154138

相关文章

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

Android Kotlin 高阶函数详解及其在协程中的应用小结

《AndroidKotlin高阶函数详解及其在协程中的应用小结》高阶函数是Kotlin中的一个重要特性,它能够将函数作为一等公民(First-ClassCitizen),使得代码更加简洁、灵活和可... 目录1. 引言2. 什么是高阶函数?3. 高阶函数的基础用法3.1 传递函数作为参数3.2 Lambda

一文详解SQL Server如何跟踪自动统计信息更新

《一文详解SQLServer如何跟踪自动统计信息更新》SQLServer数据库中,我们都清楚统计信息对于优化器来说非常重要,所以本文就来和大家简单聊一聊SQLServer如何跟踪自动统计信息更新吧... SQL Server数据库中,我们都清楚统计信息对于优化器来说非常重要。一般情况下,我们会开启"自动更新

opencv实现像素统计的示例代码

《opencv实现像素统计的示例代码》本文介绍了OpenCV中统计图像像素信息的常用方法和函数,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 统计像素值的基本信息2. 统计像素值的直方图3. 统计像素值的总和4. 统计非零像素的数量

如何使用 Bash 脚本中的time命令来统计命令执行时间(中英双语)

《如何使用Bash脚本中的time命令来统计命令执行时间(中英双语)》本文介绍了如何在Bash脚本中使用`time`命令来测量命令执行时间,包括`real`、`user`和`sys`三个时间指标,... 使用 Bash 脚本中的 time 命令来统计命令执行时间在日常的开发和运维过程中,性能监控和优化是不

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

【C++高阶】C++类型转换全攻略:深入理解并高效应用

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C++ “ 登神长阶 ” 🤡往期回顾🤡:C++ 智能指针 🌹🌹期待您的关注 🌹🌹 ❀C++的类型转换 📒1. C语言中的类型转换📚2. C++强制类型转换⛰️static_cast🌞reinterpret_cast⭐const_cast🍁dynamic_cast 📜3. C++强制类型转换的原因📝

flume系列之:查看flume系统日志、查看统计flume日志类型、查看flume日志

遍历指定目录下多个文件查找指定内容 服务器系统日志会记录flume相关日志 cat /var/log/messages |grep -i oom 查找系统日志中关于flume的指定日志 import osdef search_string_in_files(directory, search_string):count = 0