“傻瓜”学计量——核密度估计KDE

2024-04-23 01:20
文章标签 计量 kde 密度估计 傻瓜

本文主要是介绍“傻瓜”学计量——核密度估计KDE,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

提纲:

什么是核密度估计,是干什么的

代码

1 前言

参数估计vs非参数估计
参数估计是样本数据来自一个具有明确概率密度函数的总体。
非参数估计是样本数据的概率分布未知,这时,为了对样本数据进行建模,需要估计样本数据的概率密度函数。

核密度估计Kernel Density Estimation即是非参数估计的一种方式。即,核密度估计的目的:就是估测所给样本数据的概率密度函数。在论文中的应用就是解读演化趋势。


KDE的数学公式推导请看核密度估计(KDE)原理及实现-CSDN博客


2 核密度估计是什么

用有限的样本推断总体数据的分布,因此,核密度估计的结果即为样本的概率密度函数估计。

1.1 从直方图理解核密度估计图

核密度估计其实是对直方图的一个自然拓展。

第一,我们看密度的时候会先画直方图,用以表示样本数据的分布,帮助分析样本数据的众数、中位数等性质,横轴表示变量的取值区间,纵轴表示在该区间内数据出现的频次与区间的长度的比例。

第二,一个很自然的想法是,如果我们想知道X=x处的密度函数值,可以像直方图一样,选一个x附近的小区间,数一下在这个区间里面的点的个数,除以总个数,应该是一个比较好的估计。用数学语言来描述,如果你还记得导数的定义,密度函数可以写为:

f(x)=\lim _{h\rightarrow 0}\frac{F\left ( x+h \right )-F\left ( x-h \right )}{2h}

那么一个很自然的问题来了,h该怎么选取呢?

这也就是非参数估计里面的bias-variance tradeoff:如果h太大,用于计算的点很多,可以减小方差,但是方法本质要求h→0,bias可能会比较大;如果h太小,bais小了,但是用于计算的点太少,方差又很大。

第三,所以理论上存在一个最小化mean square error的一个h。一般我们会把h叫做「窗宽(bandwidth)

此时的概率分布图将会比较光滑,如右:

2 核密度估计KDE代码

1 
ssc install kdens

安装指令

2twoway kdensity 变量名

画出这个变量的核密度曲线

twoway是一个二维坐标

kdensity是核密度函数图

3twoway kdensity 变量名 [aw=变量名2]

考虑权重

aw

4twoway kdensity 变量名1 [aw=变量名2] if 变量名1<=300000,bw(10000)

限制横坐标最大值

300000横坐标最大值300000

bw(10000)是设置带宽10000

5twoway kdensity 变量名1 [aw=变量名2] if 变量名1<=300000,bw(10000) lp(dash)

lp(dash) 线型是虚线

dash 虚线 

solid 实线

longdash 长虚线

longdash_dot 长虚线加点

shortdash 短虚线

6twoway kdensity 变量名1 [aw=变量名2] if 变量名1<=300000,bw(10000) lp(dash) color(black)color(black) 线是黑白色
7twoway kdensity 变量名1 [aw=变量名2] if 变量名1<=300000,bw(10000) lp(dash) color(black) xlabel(0(50000)300000) ylabel(0.0(0.00001)0.00002)

设置横纵坐标

xlabel(0(50000)300000)横坐标从1~300000,间隔50000

ylabel(0.0(0.00001)0.00002)纵坐标是从0-0.00002,间隔0.00001

8twoway kdensity 变量名1 [aw=变量名2] if 变量名1<=300000,bw(10000) lp(dash) color(black) xlabel(0(50000)300000) ylabel(0.0(0.00001)0.00002) xtitle() ytitle()

设置横纵坐标名称

xtitle()

ytitle()

9twoway kdensity 变量名1 [aw=变量名2] if 变量名1<=300000,bw(10000) lp(dash) color(black) xlabel(0(50000)300000) ylabel(0.0(0.00001)0.00002) xtitle() ytitle() graphregion(fcolor(white) lcolor(white))

底色变白,否则默认底色为蓝,打印出来就是灰色的

graphregion(fcolor(white) lcolor(white))

fcolor 底色/背景色

lcolor 外框线颜色

10twoway kdensity finc_20 [aw=fswt_20] if finc_20 <= 300000, bw(10000) lp(solid) color(black) || kdensity finc_18 [aw=fswt_18] if finc_18<= 300000, bw(10000) 1p(longdash) color(black) || kdensity finc_16 [aw=fswt_16] if finc_16 <= 300000, bw(10000) 1p(longdash_dot) color(black) ||  kdensity finc_14 [aw=fswt_14] if finc_14 <= 300000, bw(10000) 1p(dash) color(black) || kdensity finc_12 [aw=fswt_12] if finc_12 <= 300000, bw(10000) lp(shortdash) color(black) || kdensity finc_10 [aw=fswt_10] if finc_10 <= 300000, bw(10000) lp(dash_dot) color(black) xlabel(0(50000)300000)ylabel(0.0(0.00001)0.00002)xtitle(家庭收入(元))ytitle(核密度)graphregion(fcolor(white)
lcolor(white))

同一个图中画多条核密度曲线

|| 隔开

11twoway kdensity finc_20 [aw=fswt_20] if finc_20 <= 300000, bw(10000) 1p(solid) color(black) || kdensity finc_18 [aw=fswt_18] if finc_18<= 300000, bw(10000) lp(longdash) color(black) || kdensity finc_16 [aw=fswt_16] if finc_16 <= 300000, bw(10000) lp(longdash_dot) color(black) || kdensity finc_14 [aw=fswt_14] if finc_14 <= 300000, bw(10000) lp(dash) color(black) || kdensity finc_12 [aw=fswt_12] if
finc_12 <= 300000, bw(10000) 1p(shortdash) color(black) || kdensity finc_10 [aw=fswt_10] if finc_10 <= 300000, bw(10000) lp(dash_dot) color(black) xlabel(0(50000)300000) ylabel(0.0(0.00001)0.00002) legend(label(1 "202@)label(2 "2018")label(3 "2016")label(4 "2014") label(5"2012")label(6"2010"))xtitle(家庭收入(元))ytitle(核密度)graphregion(fcolor(white)lcolor(white))

设置图例

legend

12

twoway kdensity finc_20 [aw=fswt_20] if finc_20 <= 300000, bw(10000) 1p(solid) color(black) || kdensity finc_18 [aw=fswt_18] if finc_18<= 300000, bw(10000) lp(longdash) color(black) || kdensity finc_16 [aw=fswt_16] if finc_16 <= 300000, bw(10000) lp(longdash_dot) color(black) || kdensity finc_14 [aw=fswt_14] if finc_14 <= 300000, bw(10000) 1p(dash) color(black) | | kdensity finc_12 [aw=fswt_12] if
finc_12 <= 300000, bw(10000) lp(shortdash) color(black) || kdensity finc_10 [aw=fswt_10] if finc_10 <= 300000, bw(10000) lp(dash_dot) color(black)

xlabel(0(50000)300000) ylabel(0.0(0.00001)0.00002) legend(label(1 "2020")label(2 "2018")label(3 "2016")label(4 "2014") label(5"2012")1abel(6"2010")row(2))xtitle(家庭收入(元))ytitle(核密度)graphregion(fcolor(white)lcolor(white))

设置图例的行数

row(2)行数为2

13graph save 保存路径,replace

保存图片

上表中的代码有些空格没有敲到,大家注意改一下


什么是核密度估计?如何感性认识? - 知乎

这篇关于“傻瓜”学计量——核密度估计KDE的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/927407

相关文章

证书过期傻瓜解决方案

20240906上午处理了一个gdd服务器SSL证书过期的问题,特此记录一下。 首先客户反映抖音小程序不能用然后百度阿里云,扫码登录阿里云到控制台界面查看证书域名到期情况, 发现阿里云那边记录的有效期是十月,按理说未到期,但实际证书是到期了, 用谷歌浏览器打开网页,https 会有删除线,点击旁边按钮可以看到证书过期的提示。 打开了阿里云,免费证

ANet-1E1S1智能网关:物联网时代的能源计量新纪元,断点续传引领高效运维

在万物互联的物联网时代,数据的精准采集与高效传输成为了推动各行业智能化转型的关键。ANet-1E1S1以其断点续传技术与强大的RS485接口智能通信管理能力,为水、电、气、油等多领域能源管理带来了便捷与效率的提升。基于嵌入式Linux平台的通用型智能通信管理机,正逐步成为物联网应用领域的璀璨新星。 ANet-1E1S1系列智能网关搭载了高性能32位ARM处理器,不仅确保了数据处理的高效性

Linux 安装mysql 数据库通用教程(rpm傻瓜安装)

通用教程:Centos7.9安装mysql8.0.39(使用rpm 安装) 目录 前言 下载镜像源 删除或查看旧版本 安装mysql 启动mysql mysql授权远程登录 前言 在本篇博客中,我将向您展示如何在CentOS 7.9系统上通过RPM包安装特定版本的MySQL 8.0.39。这篇博客旨在提供实用的指导,帮助读者学习如何在CentOS或其他Linux发行版上安

空间计量 | 空间OLS回归

通常情况下,我们研究X对于Y的影响作用关系,可以使用OLS回归,并且OLS回归时默认认为数据之间具有独立性(即行与行之间具有完整的独立性并不互相影响),但当前有的数据并非如此,比如各省GDP之间具有影响作用关系,北京的GDP可以拉动天津的GDP提升,即如果研究的样本是31个省,那么此31个省(样本)之间本身就具有相互影响关系,即样本之间不独立,而且样本之间具有‘空间性’,此则空间计量研究的内容,空

计量校准中溯源方法会有哪些不足之处?

随着新型计量器具的不断涌现,现有的计量检定规程或计量校准规范已不能满足计量溯源的需要。特别是一体化大型设备所配备的传感器,如产业生产线之上的压力传感器、流量计、在线电导率仪、在线酸度计为代表的对传感器的检测目前多依据国家检定规程或计量校准规范进行,规程/规范对测量点的选择相对固定,且检定/校准结果之中往往只能够对传感器在某一等级进行合格性判断或评价,无法保证高于规程要求准确度的数值评价,在实际应用

空间计量 | 空间面板模型

空间计量研究中,如果为截面数据,可使用比如空间滞后模型、空间误差模型、空间杜宾模型等。当为面板数据时则稍有不同,面板数据进行空间计量分析时,主要有三个注意点,1是数据格式的整理,包括空间权重矩阵的数据格式和面板数据的数据格式(此处需要为平衡面板数据),以及空间权重矩阵与面板数据的ID匹配;2是面板模型的选择,是固定效应还是随机效应,应该使用Hausman检验进行检验并且得出结论;3是空间计量模型的

空间计量 | 空间误差模型SEM

在空间OLS回归分析中如果得到LM检验并且判断得到应该使用空间误差SEM模型时,接着本文档介绍空间误差SEM模型。首先空间误差SEM模型的数学模式公式如下: y = βk * x + u , u = λ * Wu + µ(µ为扰动项),Wu为误差(扰动项)空间滞后变量,λ为其回归系数值 空间误差模型时,其将误差项纳入模型中,其实质是将误差项自相关纳入考虑中(空间滞后模型是将因变量空间滞后变量纳

如何审查计量校准的稳定性?有哪些审查方法?

测定计量校准稳定性的考核方法 对于新的指标,每隔一段时间(大于1个月),使用计量校准标准在验证标准之上进行一组n次重复测量,并以算术平均值作为该组的测量结果。共同观察m组(m≥4)。取m测量结果的极大值与最小值之差作为这段时间之内新计量校准标准的稳定性。 对于已建立的计量标准,每年以被计量标准在检定标准之上进行一组n次重复计量,以算术平均值作为计量结果。连续两年的测量结果之差作为该前夕计量校

计量专业基础:计量法律法规

一、国内法规体系的组成 中国计量法规体系是一个多层次、多领域的综合体系,由计量法律、计量行政法规、计量规章组成部分构成。这些组成部分相互衔接、相互配合,共同构成了保障国家计量单位制统一和量值准确可靠的法制基础。 1、计量法律 《中华人民共和国计量法》是计量法规体系的基石,由全国人民代表大会常务委员会审议通过,具有最高的法律效力。该法明确了计量的基本原则、监督管理机构、计量器具的管理、计量活动

安科瑞AEM系列碳排放碳结算计量电表产品介绍

近年来,我国加速推进碳达峰碳中和标准计量体系建设,但随着各地区、各领域、各行业对碳排放核算数据的需求显著提升,当前碳排放核算体系数据更新偏慢、核算口径不一、基础排放因子滞后等一系列问题也开始凸显。新形势下对碳排放统计核算数据的准确性、及时性、一致性、可比性和透明性等,提出了更高要求。 什么是电碳表 电碳表是一种基于国网智能物联电表架构的能源计量设备,具有高精度、高稳定性、低功耗等特点,可实时监