【Python】数据可视化之核密度

2024-09-04 14:52

本文主要是介绍【Python】数据可视化之核密度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

KDEPlot(Kernel Density Estimate Plot,核密度估计图)是seaborn库中一个用于数据可视化的函数,它基于核密度估计(KDE)这一非参数统计方法来估计数据的概率密度函数。KDEPlot能够直观地展示数据的分布特征,对于单变量和双变量数据均适用。

 

目录

基本思想

主要参数

沿轴绘制

平滑调整

多类绘制 

堆叠分布

二元分布


基本思想

核密度估计(Kernel Density Estimation, KDE)是一种用于估计随机变量概率密度函数的非参数方法。在统计学和概率论中,当我们不知道数据背后的确切分布形式时,核密度估计提供了一种灵活的方式来估计数据的分布形态。这种方法特别适用于小样本数据和复杂分布的情况。

核密度估计的基本思想是将每一个数据点看作是一个小型的、平滑的“核”函数(通常是正态分布、均匀分布或其他形式的对称、平滑函数)的中心,然后计算这些核函数在整个数据空间上的叠加结果。这个叠加的结果就是整个数据集的密度估计。

主要参数

  • data:要绘制的数据集,可以是一维数组(单变量)或二维数组/DataFrame(双变量)。
  • shade:是否在核密度曲线下绘制阴影,默认为True。阴影可以帮助更直观地展示数据的分布范围。
  • color:曲线的颜色,默认为绿色('g')。
  • hue :语义映射以确定绘图元素颜色的语义变量。
  • linewidth:曲线的宽度,默认为1。
  • bw(bandwidth):核密度估计的带宽,控制曲线的平滑程度。默认为'scott',即使用Scott的规则自动计算带宽。
  • bw_adjust : 平滑程度缩放的因子。增加将使曲线更平滑。
  • gridsize:用于计算核密度的网格大小,默认为100。增加此值可以提高图形的分辨率,但也会增加计算时间。
  • cumulative:是否绘制累积密度函数(CDF),默认为False。如果设置为True,则绘制的是数据的累积分布函数而非概率密度函数。
  • vertical:在单变量输入时有效,用于控制是否颠倒x-y轴位置,默认为False。
  • kernel:核密度估计的方法,默认为'gau'(高斯核)。特别地,在二维变量的情况下仅支持高斯核方法。
  • cmap:在绘制二维KDE图时使用的颜色映射(colormap),用于控制核密度区域的递进色彩方案。

沿轴绘制

沿x轴绘制单变量分布

tips = sns.load_dataset("tips")
sns.kdeplot(data=tips, x="total_bill", shade=True, color="g")

沿y轴绘制单变量分布

sns.kdeplot(data=tips, y="total_bill", shade=True, color="g")

平滑调整

使用更少的平滑

sns.kdeplot(data=tips, x="total_bill", bw_adjust=.1, shade=True, color="b")

使用更多的平滑(不绕过极端值)

ax= sns.kdeplot(data=tips, x="total_bill", bw_adjust=5, cut=0, shade=True, color="b")

 

 

多类绘制 

绘制多类或多列数据 

iris = sns.load_dataset("iris")
sns.kdeplot(data=iris, shade=True)

使用不同的调色 

iris = sns.load_dataset("iris")
sns.kdeplot(data=iris, shade=True, palette="crest")

 

堆叠分布

堆叠条件分布multiple="stack"

sns.kdeplot(data=tips, x="total_bill", hue="time", multiple="stack", palette="PRGn")

 

按照填充堆叠multiple="fill"

sns.kdeplot(data=tips, x="total_bill", hue="time", multiple="fill",palette="PRGn")

 

二元分布

绘制x,y的二元分布图

sns.kdeplot(data=geyser, x="waiting", y="duration")

使用 hue 语义映射以显示条件分布

geyser = sns.load_dataset("geyser")
sns.kdeplot(data=geyser, x="waiting", y="duration", hue="kind")

填空含语义映射的条件分布曲线 

geyser = sns.load_dataset("geyser")
sns.kdeplot(data=geyser, x="waiting", y="duration", hue="kind", shade=True, shade_lowest=False, cmap="crest")

 

这篇关于【Python】数据可视化之核密度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1136288

相关文章

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分