从零开始实现核密度估计(kernel density estimation,KDE)-python实现

本文主要是介绍从零开始实现核密度估计(kernel density estimation,KDE)-python实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题背景

核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。
具体原理推导可参考这篇博客。
此篇博客侧重于根据理论公式,给出python实现。

python工具包推荐

seaborn,pandas,scikit-learn中均提供了kde计算及绘图函数,可直接查阅/调用。

理论基础

核密度估计的核心公式如下:
在这里插入图片描述
其中,h为带宽(band_width),K(.)为核函数,本文选取高斯核。
在这里插入图片描述
带宽h是一个超参数,h越小,邻域中参与拟合的点越少。h有多种选取方式,
本文参考网上资料采用如下公式:
在这里插入图片描述
其中c=1.05*数据序列标准差

python实现

根据以上背景,给出kde 计算函数如下:

def get_kde(x,data_array,bandwidth=0.1):def gauss(x):import mathreturn (1/math.sqrt(2*math.pi))*math.exp(-0.5*(x**2))N=len(data_array)res=0if len(data_array)==0:return 0for i in range(len(data_array)):res += gauss((x-data_array[i])/bandwidth)res /= (N*bandwidth)return res

    其中x为待进行估计的数据点,data_array为给定的数据序列(list)。

    KDE计算及绘制demo

    测试环境

    python 3.7
    matplotlib 3.0.3
    numpy 1.16.2

    demo

    def get_kde(x,data_array,bandwidth=0.1):def gauss(x):import mathreturn (1/math.sqrt(2*math.pi))*math.exp(-0.5*(x**2))N=len(data_array)res=0if len(data_array)==0:return 0for i in range(len(data_array)):res += gauss((x-data_array[i])/bandwidth)res /= (N*bandwidth)return res
    import numpy as np
    input_array=np.random.randn(20000).tolist()
    bandwidth=1.05*np.std(input_array)*(len(input_array)**(-1/5))
    x_array=np.linspace(min(input_array),max(input_array),50)
    y_array=[get_kde(x_array[i],input_array,bandwidth) for i in range(x_array.shape[0])]
    

    import matplotlib.pyplot as plt
    plt.figure(1)
    plt.hist(input_array,bins=40,density=True)
    plt.plot(x_array.tolist(),y_array,color=‘red’,linestyle=’-’)
    plt.show()

      运行结果

      在这里插入图片描述
      结果说明:
      图中横轴为数据分布取值,纵轴为概率密度,其中直方图的高度 h = 频数/(总数*每个bin的宽度) ,直方图总面积是1,KDE曲线下总面积也是1。

      参考资料

      1. 维基百科-Kernel density estimation
      2. 知乎相关回答
      3. 核密度估计-CSDN博客

      这篇关于从零开始实现核密度估计(kernel density estimation,KDE)-python实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



      http://www.chinasem.cn/article/363962

      相关文章

      Nginx实现高并发的项目实践

      《Nginx实现高并发的项目实践》本文主要介绍了Nginx实现高并发的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录使用最新稳定版本的Nginx合理配置工作进程(workers)配置工作进程连接数(worker_co

      python中列表list切分的实现

      《python中列表list切分的实现》列表是Python中最常用的数据结构之一,经常需要对列表进行切分操作,本文主要介绍了python中列表list切分的实现,文中通过示例代码介绍的非常详细,对大家... 目录一、列表切片的基本用法1.1 基本切片操作1.2 切片的负索引1.3 切片的省略二、列表切分的高

      基于Python实现一个PDF特殊字体提取工具

      《基于Python实现一个PDF特殊字体提取工具》在PDF文档处理场景中,我们常常需要针对特定格式的文本内容进行提取分析,本文介绍的PDF特殊字体提取器是一款基于Python开发的桌面应用程序感兴趣的... 目录一、应用背景与功能概述二、技术架构与核心组件2.1 技术选型2.2 系统架构三、核心功能实现解析

      通过Python脚本批量复制并规范命名视频文件

      《通过Python脚本批量复制并规范命名视频文件》本文介绍了如何通过Python脚本批量复制并规范命名视频文件,实现自动补齐数字编号、保留原始文件、智能识别有效文件等功能,听过代码示例介绍的非常详细,... 目录一、问题场景:杂乱的视频文件名二、完整解决方案三、关键技术解析1. 智能路径处理2. 精准文件名

      基于Python开发PDF转Doc格式小程序

      《基于Python开发PDF转Doc格式小程序》这篇文章主要为大家详细介绍了如何基于Python开发PDF转Doc格式小程序,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 用python实现PDF转Doc格式小程序以下是一个使用Python实现PDF转DOC格式的GUI程序,采用T

      Python使用PIL库将PNG图片转换为ICO图标的示例代码

      《Python使用PIL库将PNG图片转换为ICO图标的示例代码》在软件开发和网站设计中,ICO图标是一种常用的图像格式,特别适用于应用程序图标、网页收藏夹图标等场景,本文将介绍如何使用Python的... 目录引言准备工作代码解析实践操作结果展示结语引言在软件开发和网站设计中,ICO图标是一种常用的图像

      使用Python开发一个图像标注与OCR识别工具

      《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

      使用Python实现表格字段智能去重

      《使用Python实现表格字段智能去重》在数据分析和处理过程中,数据清洗是一个至关重要的步骤,其中字段去重是一个常见且关键的任务,下面我们看看如何使用Python进行表格字段智能去重吧... 目录一、引言二、数据重复问题的常见场景与影响三、python在数据清洗中的优势四、基于Python的表格字段智能去重

      Spring AI集成DeepSeek实现流式输出的操作方法

      《SpringAI集成DeepSeek实现流式输出的操作方法》本文介绍了如何在SpringBoot中使用Sse(Server-SentEvents)技术实现流式输出,后端使用SpringMVC中的S... 目录一、后端代码二、前端代码三、运行项目小天有话说题外话参考资料前面一篇文章我们实现了《Spring

      Python中如何控制小数点精度与对齐方式

      《Python中如何控制小数点精度与对齐方式》在Python编程中,数据输出格式化是一个常见的需求,尤其是在涉及到小数点精度和对齐方式时,下面小编就来为大家介绍一下如何在Python中实现这些功能吧... 目录一、控制小数点精度1. 使用 round() 函数2. 使用字符串格式化二、控制对齐方式1. 使用