本文主要是介绍非参数估计法之 parzen窗方法和k近邻方法估计概率密度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
无论是参数估计还是费参数估计 其目的都是为了求出总体的概率密度函数
parzen窗
基本原理
嗯哼哼 ,画个圈圈 ,在圈圈里面又画一个正方形,在往圈圈里面随机扔豆豆,豆豆在正方形里面的概率约等于在正方形内的总数k比豆豆总数n即k/n,其正好是正方形与圈圈的面积比,假设正方形的面积为R
设豆豆落在正方形里面的概率为P = k/n,假设豆豆落在正方形的每一个点上的概率一样,则落在正方形中的任意一点的概率为
p = (k/n)/R
若没一点的概率密度服从函数p(x)
当R足够小,p(x)变化也会变得特别小,则
Parzon窗估计
定义窗函数:假设Rn是一个d维的超立方体。令hn为超立方体一条边的长度,则体积:
上式为超立方体函数
落入以X为中心的立方体区域的样本数为:
X处的密度估计为
只要函数满足如下条件, 就可以作为窗函数
故窗函数泛化之高斯函数
其中μ = 0,δ² =1
(为什么不是μ = x,δ² =
???还是说正态窗函数就是这个样?)
故Parzen窗估计过程是一个内插过程,一般样本xi距离x越近,对概率密度估计的贡献越大,越远贡献越小 ,和局部线性回归的思想类似
栗子
来源于http://blog.sina.com.cn/s/blog_679e13290101cpr1.html
数字图像处理也用过类似思想,平滑
一般Parzen估计的性能与窗宽参数hn紧密相关
如一元正态分布 变大则
分母变大整体变小,而指数部分肯定为负数所以,h越大会越趋近于0,故副i整体变化不大
所以
当较大时,x 和中心 xi 距离大小的影响程度变弱,估计的p(x)较为平滑,分辨率较差
同理,当较小时,x 和中心 xi 距离大小的影响程度变强,估计的p(x)较为尖锐,分辨率较好。
同时 再来理解下 中n时什么
n表示的样本数
每一次样本数发生变化时都可以取不同,n和h对其概率密度的影响
其中
近邻估计
基本原理
固定样本数量Kn ,调整区域体积大小Vn,直至有Kn个样本落入区域中
固定样本数为,在X附近选取与之最近的
个样本,计算
个样本分布的最小体积
同样概率密度估值为
这篇关于非参数估计法之 parzen窗方法和k近邻方法估计概率密度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!