sparkpython专题

核密度估计原理及sparkpython实现

核密度估计属于非参数估计,它主要解决的问题就是在对总体样本的分布未知的情况,如何估计样本的概率分布。 像平时,我们经常也会用直方图来展示样本数据的分布情况,如下图: 但是,直方图有着明显的缺点: 非常不平滑,邻近的数据无法体现它们的差别;不同的bins画出的直方图差别非常大;无法计算概率密度值。 核密度估计 核密度估计就可以很好的解决直方图存在的问题,它的原理其实也很简单:当你需要估计一个