本文主要是介绍seaborn可视化学习之categorial visualization(附数据集),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Seaborn是一个做数据可视化效果很棒的库。在看了官方tutorial之后,尝试用Iris鸢尾花数据集实践一下categorical visualization,也就是数据按类别进行可视化。
首先介绍一下Iris鸢尾花数据集,内容摘自百度百科:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。“Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类”。
导入库
import warnings
warnings.filterwarnings("ignore")
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
读取数据
iris = pd.read_csv('../input/iris/iris.csv')
iris.head()
数据字段介绍:
- sepal_length:花萼长度,单位cm
- sepal_width:花萼宽度,单位cm
- petal_length:花瓣长度,单位cm
- petal_width:花瓣宽度,单位cm
- 种类:setosa(山鸢尾),versicolor(杂色鸢尾),virginica(弗吉尼亚鸢尾)
在做categorical visualization的时候,seaborn给出了基础的stripplot &swarmplot, boxplot & violinplot, barplot & pointplot,以及抽象化的factorplot.下面就用纸鸢花数据集做一下讲解。
我们将纸鸢花数据集中不同种类花的sepal length做stripplot可视化
plt.figure(1,figsize=(12,6))plt.subplot(1,2,1)
sns.stripplot(x='species',y='sepal_length',data=iris) #stripplot
plt.title('Striplot of sepal length of Iris species')with sns.axes_style("whitegrid"): # 这个是临时设置样式的命令,如果不写,则按默认格式'darkgrid'进行绘制plt.subplot(1,2,2)plt.title('Striplot of sepal length of Iris species')sns.stripplot(x='species',y='sepal_length',data=iris,jitter=True) # jitterplotplt.show()
上边左侧的图片便是在默认风格下用stripplot绘制的散点图。在很多情况下,stripplot中的点会重叠,使得我们不容易看出点的分布情况。一个简单的解决办法就是用在stripplot的基础上绘制抖动图(jitterplot),仅沿着类别坐标轴的方向去随机微调整点的位置,显示出分布情况。
plt.figure(1,figsize=(12,6))plt.subplot(1,2,1)
sns.swarmplot(x='species',y='petal_length',data=iris) with sns.axes_style("ticks"): # 这次使用了ticks风格plt.subplot(1,2,2)sns.swarmplot(x='species',y='petal_width',data=iris)plt.show()
var = ['sepal_length','sepal_width','petal_length','petal_width']
axes_style = ['ticks','white','whitegrid', 'dark']fig = plt.figure(1,figsize=(12,12))for i in range(4):with sns.axes_style(axes_style[i]): # 将除了默认的darkgrid之外的样式都展现一遍plt.subplot(2,2,i+1)sns.boxplot(x='species',y=var[i],data=iris)plt.show()
context= ['notebook','paper','talk','poster']
axes_style = ['ticks','white','whitegrid', 'dark']plt.figure(1,figsize=(12,12))
for i in range(4):with sns.axes_style(axes_style[i]):#设置axes_stylesns.set_context(context[i]) # 设置context style,默认为notebook,除此之外还有paper,talk,posterplt.subplot(2,2,i+1)plt.title(str(var[i])+ ' in Iris species')sns.violinplot(x='species',y=var[i],data=iris)plt.show()
Violinplot用kernel density estimate去更好地描述了quantitative变量的分布。
与此同时,也可以组合swarmplot和boxplot或violinplot去描述quantitative变量。用鸢尾花数据集展示如下:
context= ['notebook','paper','talk','poster']
axes_style = ['ticks','white','whitegrid', 'dark']plt.figure(1,figsize=(12,12))
for i in range(4):with sns.axes_style(axes_style[i]):#设置axes_stylesns.set_context(context[i])#设置contextplt.subplot(2,2,i+1)plt.title(str(var[i])+ ' in Iris species')sns.swarmplot(x='species', y=var[i], data=iris, color="w", alpha=.5) sns.violinplot(x='species', y=var[i], data=iris, inner=None) if i%2 ==0 \else sns.boxplot(x='species', y=var[i], data=iris) # 分别用swarmplot+violinplot 和swarmplot + boxplotplt.show()
plt.figure(1,figsize=(12,12))
for i in range(4):with sns.axes_style(axes_style[i]):#设置axes_stylesns.set_context(context[i]) # 设置context style,默认为notebook,除此之外还有paper,talk,posterplt.subplot(2,2,i+1)plt.title(str(var[i])+ ' in Iris species')sns.barplot(x='species',y=var[i],data=iris)
plt.show()
plt.figure(figsize=(5,5))
sns.countplot(y="species", data=iris) # 设置y='species',将countplot水平放置
plt.title('Iris species count')
plt.show()
plt.figure(1,figsize=(12,12))
for i in range(4):with sns.axes_style(axes_style[i]):#设置axes_stylesns.set_context(context[i]) # 设置context style,默认为notebook,除此之外还有paper,talk,posterplt.subplot(2,2,i+1)plt.title(str(var[i])+ ' in Iris species')sns.pointplot(x='species',y=var[i],data=iris)
plt.show()
sns.set(style="ticks")
g = sns.PairGrid(iris,x_vars = ['sepal_length','sepal_width','petal_length','petal_width'],y_vars = 'species',aspect=0.75,size=4) # 设置间距和图片大小
g.map(sns.violinplot,palette='pastel')
plt.show()
附上各plot function的API,今后将会对API中的参数结合tutorial讲讲,如何做出更好的可视化效果。更新ing
# seaborn.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,
# jitter=False, dodge=False, orient=None, color=None, palette=None, size=5, edgecolor='gray',
# linewidth=0, ax=None, **kwargs)
# seaborn.swarmplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,
# dodge=False, orient=None, color=None, palette=None, size=5, edgecolor='gray', linewidth=0, ax=None, **kwargs)
# seaborn.boxplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,
# orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True, fliersize=5, l
# inewidth=None, whis=1.5, notch=False, ax=None, **kwargs)
# seaborn.violinplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,
# bw='scott', cut=2, scale='area', scale_hue=True, gridsize=100, width=0.8, inner='box',
# split=False, dodge=True, orient=None, linewidth=None, color=None, palette=None,
# saturation=0.75, ax=None, **kwargs)
# seaborn.lvplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,
# orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True,
# k_depth='proportion', linewidth=None, scale='exponential', outlier_prop=None, ax=None, **kwargs)
# seaborn.pointplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,
# estimator=<function mean>, ci=95, n_boot=1000, units=None, markers='o', linestyles='-',
# dodge=False, join=True, scale=1, orient=None, color=None, palette=None, errwidth=None, capsize=None, ax=None, **kwargs)
# seaborn.barplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,
# estimator=<function mean>, ci=95, n_boot=1000, units=None, orient=None, color=None, palette=None,
# saturation=0.75, errcolor='.26', errwidth=None, capsize=None, dodge=True, ax=None, **kwargs)
这篇关于seaborn可视化学习之categorial visualization(附数据集)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!