Seaborn:推荐一个好用的Python可视化工具

2024-04-18 03:28

本文主要是介绍Seaborn:推荐一个好用的Python可视化工具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 引言

Seaborn 是建立在 matplotlib 基础上的数据可视化库,并与 Python 中的 pandas 数据结构紧密结合。可视化是 Seaborn 的核心部分,有助于直观的理解数据。

闲话少说,我们直接开始吧!

2. 安装

Seaborn库主要提供以下功能:

面向数据集的应用程序接口,用于确定变量之间的关系。
自动估计和绘制线性回归图。
它支持多网格图的高级抽象。

使用Seaborn库,我们可以方便地绘制各种图形。我们可以使用的以下命令进行安装:

pip install seaborn

要初始化 Seaborn 库,一般使用以下命令:

import seaborn as sns

3. 引入数据集

为了展示使用 Seaborn 库进行各种图形的绘制,我们这里使用googleplaystore.csv数据集,大家可以在kaggle网站进行下载。

在继续之前,首先让我们访问一下数据集:

import pandas as pd
import numpy as np
pstore = pd.read_csv("googleplaystore.csv")
pstore.head(10)

数据集的示例如下:

在这里插入图片描述

4. 数据直方分布图

首先,让我们看看上述数据集中第三列 Rating 列即APP评分列的数据直方分布图,代码如下:

#importing all the libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
pstore = pd.read_csv("googleplaystore.csv")
#Create a distribution plot for rating
sns.distplot(pstore.Rating)
plt.show()

运行后得到结果如下:
在这里插入图片描述
观察上图,在直方分布图上绘制的曲线KDE就是近似的概率密度曲线。

5. 参数设置

matplotlib 中的直方图类似,在直方分布图中,我们也可以改变bins 数目,使图形更易于理解。

#Change the number of bins
sns.distplot(inp1.Rating, bins=20, kde=False)
plt.show()

现在,图表看起来是这样的,如下:
在这里插入图片描述
在上图中,我们在代码中设置kde = False 后,运行后没有概率密度曲线。要删除该曲线,只需对变量kde 进行相应设置即可。

6. 控制颜色

我们还可以像matplotlib 一样为直方分布图提供标题和颜色。相关代码如下:

#importing all the libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns#Create a distribution plot for rating
sns.distplot(pstore.Rating, bins=20, color="g")
plt.title("Distribution of app ratings", fontsize=20, color = 'red')
plt.show()

运行后结果如下:
在这里插入图片描述

7. 默认样式

使用 Seaborn 的最大优势之一是,它为我们的图表提供了多种默认样式选项。以下都是 Seaborn 提供的默认样式:

'Solarize_Light2','_classic_test_patch','bmh','classic','dark_background','fast','fivethirtyeight','ggplot','grayscale','seaborn','seaborn-bright','seaborn-colorblind','seaborn-dark','seaborn-dark-palette','seaborn-darkgrid','seaborn-deep','seaborn-muted','seaborn-notebook','seaborn-paper','seaborn-pastel','seaborn-poster','seaborn-talk','seaborn-ticks','seaborn-white','seaborn-whitegrid','tableau-colorblind10'

我们只需编写一行代码,就能将这些样式整合到我们的图表中。

#importing all the libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns#Adding dark background to the graph
plt.style.use("dark_background")#Create a distribution plot for rating
sns.distplot(pstore.Rating, bins=20, color="g")
plt.title("Distribution of app ratings", fontsize=20, color = 'red')
plt.show()

为图表添加深色背景后,分布图看起来就像这样了,如下所示:
在这里插入图片描述

8. 饼图

饼图一般用于分析不同类别中的数据分布。在我们使用的数据集中,我们将分析内容评级列Content Rating 中排名前 4 位的类别的数量。首先,我们将对 "内容评级 "列Content Rating 进行数据清理和挖掘,并统计相应类别的数量。

#importing all the libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns#Analyzing the Content Rating column
count = pstore['Content Rating'].value_counts()
print(count)

得到结果如下:
在这里插入图片描述
根据上述输出结果,由于 Adults only 18+ Unrated 的这两个类别的计数明显少于其他类别,我们将从内容分级中删除这些类别并更新数据集。

#Remove the rows with values which are less represented 
pstore = pstore[~pstore['Content Rating'].isin(["Adults only 18+","Unrated"])]
#Resetting the index
pstore.reset_index(inplace=True, drop=True)
#Analyzing the Content Rating column again
count = pstore['Content Rating'].value_counts()
print(count)

得到结果如下:
在这里插入图片描述
现在,让我们为 上述统计结果绘制相应的饼图,代码如下:

#Plotting a pie chart
plt.figure(figsize=[9,7])
pstore['Content Rating'].value_counts().plot.pie()
plt.show()

运行后得到结果如下:
在这里插入图片描述

9. 柱状图

观察上述代码输出的饼图中,我们无法正确推断类别 Everyone 10+和类别 Mature 17+这两个类别的比例谁大。当这两个类别的数值有些相似时,直接观察饼图很难评估它们之间的差异。

此时,我们可以将上述数据绘制成柱状图来克服这种情况。绘制柱状图的代码如下:

#Plotting a bar chart
plt.figure(figsize=[9,7])
pstore['Content Rating'].value_counts().plot.barh()
plt.show()

运行后如下:
在这里插入图片描述
当然,我们可以给不同类别设置不同颜色,如下:

plt.figure(figsize=[9,7])
pstore['Content Rating'].value_counts().plot.barh(color=["purple","orange","green","pink"])
plt.show()

结果如下:
在这里插入图片描述

10. 总结

本文重点介绍了如何利用Seaborn库绘制数据直方分布图以及饼图和柱状图,并给出了相应的代码示例!

您学废了嘛!

这篇关于Seaborn:推荐一个好用的Python可视化工具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/913644

相关文章

Python中你不知道的gzip高级用法分享

《Python中你不知道的gzip高级用法分享》在当今大数据时代,数据存储和传输成本已成为每个开发者必须考虑的问题,Python内置的gzip模块提供了一种简单高效的解决方案,下面小编就来和大家详细讲... 目录前言:为什么数据压缩如此重要1. gzip 模块基础介绍2. 基本压缩与解压缩操作2.1 压缩文

Python设置Cookie永不超时的详细指南

《Python设置Cookie永不超时的详细指南》Cookie是一种存储在用户浏览器中的小型数据片段,用于记录用户的登录状态、偏好设置等信息,下面小编就来和大家详细讲讲Python如何设置Cookie... 目录一、Cookie的作用与重要性二、Cookie过期的原因三、实现Cookie永不超时的方法(一)

Python内置函数之classmethod函数使用详解

《Python内置函数之classmethod函数使用详解》:本文主要介绍Python内置函数之classmethod函数使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录1. 类方法定义与基本语法2. 类方法 vs 实例方法 vs 静态方法3. 核心特性与用法(1编程客

Python函数作用域示例详解

《Python函数作用域示例详解》本文介绍了Python中的LEGB作用域规则,详细解析了变量查找的四个层级,通过具体代码示例,展示了各层级的变量访问规则和特性,对python函数作用域相关知识感兴趣... 目录一、LEGB 规则二、作用域实例2.1 局部作用域(Local)2.2 闭包作用域(Enclos

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

Python实现对阿里云OSS对象存储的操作详解

《Python实现对阿里云OSS对象存储的操作详解》这篇文章主要为大家详细介绍了Python实现对阿里云OSS对象存储的操作相关知识,包括连接,上传,下载,列举等功能,感兴趣的小伙伴可以了解下... 目录一、直接使用代码二、详细使用1. 环境准备2. 初始化配置3. bucket配置创建4. 文件上传到os

Qt QCustomPlot库简介(最新推荐)

《QtQCustomPlot库简介(最新推荐)》QCustomPlot是一款基于Qt的高性能C++绘图库,专为二维数据可视化设计,它具有轻量级、实时处理百万级数据和多图层支持等特点,适用于科学计算、... 目录核心特性概览核心组件解析1.绘图核心 (QCustomPlot类)2.数据容器 (QCPDataC

Java内存分配与JVM参数详解(推荐)

《Java内存分配与JVM参数详解(推荐)》本文详解JVM内存结构与参数调整,涵盖堆分代、元空间、GC选择及优化策略,帮助开发者提升性能、避免内存泄漏,本文给大家介绍Java内存分配与JVM参数详解,... 目录引言JVM内存结构JVM参数概述堆内存分配年轻代与老年代调整堆内存大小调整年轻代与老年代比例元空

深度解析Java DTO(最新推荐)

《深度解析JavaDTO(最新推荐)》DTO(DataTransferObject)是一种用于在不同层(如Controller层、Service层)之间传输数据的对象设计模式,其核心目的是封装数据,... 目录一、什么是DTO?DTO的核心特点:二、为什么需要DTO?(对比Entity)三、实际应用场景解析

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互