本文主要是介绍非参数估计法之 parzen窗方法和k近邻方法估计概率密度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
无论是参数估计还是费参数估计 其目的都是为了求出总体的概率密度函数
parzen窗
基本原理
嗯哼哼 ,画个圈圈 ,在圈圈里面又画一个正方形,在往圈圈里面随机扔豆豆,豆豆在正方形里面的概率约等于在正方形内的总数k比豆豆总数n即k/n,其正好是正方形与圈圈的面积比,假设正方形的面积为R
设豆豆落在正方形里面的概率为P = k/n,假设豆豆落在正方形的每一个点上的概率一样,则落在正方形中的任意一点的概率为
p = (k/n)/R
若没一点的概率密度服从函数p(x)
当R足够小,p(x)变化也会变得特别小,则
Parzon窗估计
定义窗函数:假设Rn是一个d维的超立方体。令hn为超立方体一条边的长度,则体积:
上式为超立方体函数
落入以X为中心的立方体区域的样本数为:
X处的密度估计为
只要函数满足如下条件, 就可以作为窗函数
故窗函数泛化之高斯函数
其中μ = 0,δ² =1
(为什么不是μ = x,δ² =???还是说正态窗函数就是这个样?)
故Parzen窗估计过程是一个内插过程,一般样本xi距离x越近,对概率密度估计的贡献越大,越远贡献越小 ,和局部线性回归的思想类似
栗子
来源于http://blog.sina.com.cn/s/blog_679e13290101cpr1.html
数字图像处理也用过类似思想,平滑
一般Parzen估计的性能与窗宽参数hn紧密相关
如一元正态分布 变大则分母变大整体变小,而指数部分肯定为负数所以,h越大会越趋近于0,故副i整体变化不大
所以
当较大时,x 和中心 xi 距离大小的影响程度变弱,估计的p(x)较为平滑,分辨率较差
同理,当较小时,x 和中心 xi 距离大小的影响程度变强,估计的p(x)较为尖锐,分辨率较好。
同时 再来理解下 中n时什么
n表示的样本数
每一次样本数发生变化时都可以取不同,n和h对其概率密度的影响
其中
近邻估计
基本原理
固定样本数量Kn ,调整区域体积大小Vn,直至有Kn个样本落入区域中
固定样本数为,在X附近选取与之最近的个样本,计算个样本分布的最小体积
同样概率密度估值为
这篇关于非参数估计法之 parzen窗方法和k近邻方法估计概率密度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!