数据分析介绍之三——单变量数据观察之核密度估计

本文主要是介绍数据分析介绍之三——单变量数据观察之核密度估计，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

数据分析介绍之三——单变量数据观察之核密度估计

一、核密度估计

上一篇结尾处谈到了直方图的几个缺点，幸运的是，除了这些问题之外，还有经典直方图的替代方案。称为核密度估计。
这里写图片描述

内核密度估计（KDEs）是一种比较新的技术。与直方图和许多其他经典数据分析方法相比，它们几乎要求合理的现代计算机的计算能力有效。即使是相当适中的数据集，它们也不能用纸和铅笔手工完成。（有趣的是，计算和图形功能的可访问性如何能够新的方式来思考数据！）

为了形成KDE，我们在每个数据点的位置放置一个内核，即一个平滑的，强峰值的函数。然后，我们将来自所有内核的贡献加起来，获得一个平滑的曲线，我们可以在x轴的任意点进行评估。

图2-4显示了一个例子。这是我们以前在图2-1中看到的数据集的另一个表示。虚线框是数据集的直方图（bin宽度等于1），实线是具有不同带宽的相同数据集的两个KDE（稍后将解释此概念）。单个内核函数的形状可以清楚地看出来——例如，通过考虑低于20的三个数据点。您还可以看到最终曲线如何由单个内核组成，特别是当您查看30到40之间的点。

这里写图片描述