本文主要是介绍EDA-数据探索-pandas自带可视化-iris,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
# 加载yellowbrick数据集
import os
import pandas as pd
FIXTURES = os.path.join(os.getcwd(), "data")
df = pd.read_csv(os.path.join(FIXTURES,"iris.csv"))
df.head()
sepal_length | sepal_width | petal_length | petal_width | species | |
---|---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 | setosa |
1 | 4.9 | 3.0 | 1.4 | 0.2 | setosa |
2 | 4.7 | 3.2 | 1.3 | 0.2 | setosa |
3 | 4.6 | 3.1 | 1.5 | 0.2 | setosa |
4 | 5.0 | 3.6 | 1.4 | 0.2 | setosa |
df.head().to_dict()
{'sepal_length': {0: 5.1, 1: 4.9, 2: 4.7, 3: 4.6, 4: 5.0},'sepal_width': {0: 3.5, 1: 3.0, 2: 3.2, 3: 3.1, 4: 3.6},'petal_length': {0: 1.4, 1: 1.4, 2: 1.3, 3: 1.5, 4: 1.4},'petal_width': {0: 0.2, 1: 0.2, 2: 0.2, 3: 0.2, 4: 0.2},'species': {0: 'setosa', 1: 'setosa', 2: 'setosa', 3: 'setosa', 4: 'setosa'}}
可视化相关的库
import warnings
warnings.filterwarnings('ignore')import numpy as np
from scipy.stats import normimport seaborn as sns
import matplotlib.pyplot as plt
get_ipython().run_line_magic('matplotlib', 'inline')plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
df.columns
Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width','species'],dtype='object')
plt.style.available
['Solarize_Light2','_classic_test_patch','_mpl-gallery','_mpl-gallery-nogrid','bmh','classic','dark_background','fast','fivethirtyeight','ggplot','grayscale','seaborn-v0_8','seaborn-v0_8-bright','seaborn-v0_8-colorblind','seaborn-v0_8-dark','seaborn-v0_8-dark-palette','seaborn-v0_8-darkgrid','seaborn-v0_8-deep','seaborn-v0_8-muted','seaborn-v0_8-notebook','seaborn-v0_8-paper','seaborn-v0_8-pastel','seaborn-v0_8-poster','seaborn-v0_8-talk','seaborn-v0_8-ticks','seaborn-v0_8-white','seaborn-v0_8-whitegrid','tableau-colorblind10']
plt.style.use( 'seaborn-v0_8')
字符特征
条形图(柱状图)展示每个字符特征的频数分布。
df[‘字符特征’].value_counts().plot(kind=‘bar’)
df['species'].value_counts().plot(kind='bar') # 均衡的一笔
<Axes: xlabel='species'>
数字特征
直方图展示数字特征的分布情况。
df[‘数字特征’].plot(kind=‘hist’)
df['sepal_length'].plot(kind='hist')
<Axes: ylabel='Frequency'>
from scipy.stats import gaussian_kde# 绘制直方图
ax = df['sepal_length'].plot(kind='hist', bins=10, density=True)# 计算核密度估计
density = gaussian_kde(df['sepal_length'])x, y = np.linspace(df['sepal_length'].min(), df['sepal_length'].max(), 100), density(np.linspace(df['sepal_length'].min(), df['sepal_length'].max(), 100))# 绘制拟合曲线
ax.plot(x, y) # ,color='red'# 显示图形
plt.show()
分类结果
饼图展示分类结果的占比情况。
df[‘分类结果’].value_counts().plot(kind=‘pie’)
ax = df['species'].value_counts().plot(kind='pie') # 均衡的一笔
# 自定义ylabel
ax.set_ylabel(' ')
# 显示图形
plt.show()
字符特征与数字特征关系
箱线图展示不同字符特征对应的数字特征的分布情况。
df.boxplot(column=‘数字特征’, by=‘字符特征’)
df.boxplot(column='sepal_length', by='species') # ,color='orange'
# 自定义标题
plt.title(' ')
# 显示图形
plt.show()
字符特征与数字特征关系
折线图展示不同字符特征对应的数字特征的均值变化趋势。
df.groupby(‘字符特征’)[‘数字特征’].mean().plot(kind=‘line’)
df.groupby('species')['sepal_length'].mean().plot(kind='line')
<Axes: xlabel='species'>
数字特征间的关系
散点图展示两个数字特征之间的相关性。
df.plot(kind=‘scatter’, x=‘数字特征1’, y=‘数字特征2’)
df.plot(kind='scatter', x='sepal_length', y='sepal_width')
<Axes: xlabel='sepal_length', ylabel='sepal_width'>
数字特征的分布情况
箱线图展示数字特征的分布情况和异常值。
df.boxplot(column=‘数字特征’)
df.boxplot(column='sepal_length') # ,color='#4C72B0'
<Axes: >
数字特征的分布情况
核密度估计图展示数字特征的概率密度分布。
df[‘数字特征’].plot(kind=‘density’)
df['sepal_length'].plot(kind='density')
<Axes: ylabel='Density'>
字符特征和分类结果的交叉统计
交叉表展示字符特征和分类结果之间的频数统计。
pd.crosstab(df[‘字符特征’], df[‘分类结果’]).plot(kind=‘bar’)
pd.crosstab(df['species'], df['species']).plot(kind='bar')
<Axes: xlabel='species'>
这篇关于EDA-数据探索-pandas自带可视化-iris的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!