EDA-数据探索-pandas自带可视化-iris

2024-01-19 04:12

本文主要是介绍EDA-数据探索-pandas自带可视化-iris,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

# 加载yellowbrick数据集
import os
import pandas as pd
FIXTURES  = os.path.join(os.getcwd(), "data")
df = pd.read_csv(os.path.join(FIXTURES,"iris.csv"))
df.head()
sepal_lengthsepal_widthpetal_lengthpetal_widthspecies
05.13.51.40.2setosa
14.93.01.40.2setosa
24.73.21.30.2setosa
34.63.11.50.2setosa
45.03.61.40.2setosa
df.head().to_dict()
{'sepal_length': {0: 5.1, 1: 4.9, 2: 4.7, 3: 4.6, 4: 5.0},'sepal_width': {0: 3.5, 1: 3.0, 2: 3.2, 3: 3.1, 4: 3.6},'petal_length': {0: 1.4, 1: 1.4, 2: 1.3, 3: 1.5, 4: 1.4},'petal_width': {0: 0.2, 1: 0.2, 2: 0.2, 3: 0.2, 4: 0.2},'species': {0: 'setosa', 1: 'setosa', 2: 'setosa', 3: 'setosa', 4: 'setosa'}}

可视化相关的库

import warnings
warnings.filterwarnings('ignore')import numpy as np
from scipy.stats import normimport seaborn as sns
import matplotlib.pyplot as plt
get_ipython().run_line_magic('matplotlib', 'inline')plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False 
df.columns
Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width','species'],dtype='object')
plt.style.available
['Solarize_Light2','_classic_test_patch','_mpl-gallery','_mpl-gallery-nogrid','bmh','classic','dark_background','fast','fivethirtyeight','ggplot','grayscale','seaborn-v0_8','seaborn-v0_8-bright','seaborn-v0_8-colorblind','seaborn-v0_8-dark','seaborn-v0_8-dark-palette','seaborn-v0_8-darkgrid','seaborn-v0_8-deep','seaborn-v0_8-muted','seaborn-v0_8-notebook','seaborn-v0_8-paper','seaborn-v0_8-pastel','seaborn-v0_8-poster','seaborn-v0_8-talk','seaborn-v0_8-ticks','seaborn-v0_8-white','seaborn-v0_8-whitegrid','tableau-colorblind10']
plt.style.use( 'seaborn-v0_8')

字符特征

条形图(柱状图)展示每个字符特征的频数分布。

df[‘字符特征’].value_counts().plot(kind=‘bar’)

df['species'].value_counts().plot(kind='bar')  # 均衡的一笔
<Axes: xlabel='species'>

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数字特征

直方图展示数字特征的分布情况。

df[‘数字特征’].plot(kind=‘hist’)

df['sepal_length'].plot(kind='hist')
<Axes: ylabel='Frequency'>

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

from scipy.stats import gaussian_kde# 绘制直方图
ax = df['sepal_length'].plot(kind='hist', bins=10, density=True)# 计算核密度估计
density = gaussian_kde(df['sepal_length'])x, y = np.linspace(df['sepal_length'].min(), df['sepal_length'].max(), 100), density(np.linspace(df['sepal_length'].min(), df['sepal_length'].max(), 100))# 绘制拟合曲线
ax.plot(x, y) # ,color='red'# 显示图形
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


分类结果

饼图展示分类结果的占比情况。

df[‘分类结果’].value_counts().plot(kind=‘pie’)

ax = df['species'].value_counts().plot(kind='pie') # 均衡的一笔
# 自定义ylabel
ax.set_ylabel(' ')
# 显示图形
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

字符特征与数字特征关系

箱线图展示不同字符特征对应的数字特征的分布情况。

df.boxplot(column=‘数字特征’, by=‘字符特征’)

df.boxplot(column='sepal_length', by='species') # ,color='orange'
# 自定义标题
plt.title(' ')
# 显示图形
plt.show()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

字符特征与数字特征关系

折线图展示不同字符特征对应的数字特征的均值变化趋势。

df.groupby(‘字符特征’)[‘数字特征’].mean().plot(kind=‘line’)

df.groupby('species')['sepal_length'].mean().plot(kind='line')
<Axes: xlabel='species'>

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数字特征间的关系

散点图展示两个数字特征之间的相关性。

df.plot(kind=‘scatter’, x=‘数字特征1’, y=‘数字特征2’)

df.plot(kind='scatter', x='sepal_length', y='sepal_width')
<Axes: xlabel='sepal_length', ylabel='sepal_width'>

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数字特征的分布情况

箱线图展示数字特征的分布情况和异常值。

df.boxplot(column=‘数字特征’)

df.boxplot(column='sepal_length') # ,color='#4C72B0'
<Axes: >

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数字特征的分布情况

核密度估计图展示数字特征的概率密度分布。

df[‘数字特征’].plot(kind=‘density’)

df['sepal_length'].plot(kind='density')
<Axes: ylabel='Density'>

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

字符特征和分类结果的交叉统计

交叉表展示字符特征和分类结果之间的频数统计。

pd.crosstab(df[‘字符特征’], df[‘分类结果’]).plot(kind=‘bar’)

pd.crosstab(df['species'], df['species']).plot(kind='bar')
<Axes: xlabel='species'>

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


这篇关于EDA-数据探索-pandas自带可视化-iris的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/621226

相关文章

MySQL InnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据

《MySQLInnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据》mysql的ibdata文件被误删、被恶意修改,没有从库和备份数据的情况下的数据恢复,不能保证数据库所有表数据... 参考:mysql Innodb表空间卸载、迁移、装载的使用方法注意!此方法只适用于innodb_fi

mysql通过frm和ibd文件恢复表_mysql5.7根据.frm和.ibd文件恢复表结构和数据

《mysql通过frm和ibd文件恢复表_mysql5.7根据.frm和.ibd文件恢复表结构和数据》文章主要介绍了如何从.frm和.ibd文件恢复MySQLInnoDB表结构和数据,需要的朋友可以参... 目录一、恢复表结构二、恢复表数据补充方法一、恢复表结构(从 .frm 文件)方法 1:使用 mysq

mysql8.0无备份通过idb文件恢复数据的方法、idb文件修复和tablespace id不一致处理

《mysql8.0无备份通过idb文件恢复数据的方法、idb文件修复和tablespaceid不一致处理》文章描述了公司服务器断电后数据库故障的过程,作者通过查看错误日志、重新初始化数据目录、恢复备... 周末突然接到一位一年多没联系的妹妹打来电话,“刘哥,快来救救我”,我脑海瞬间冒出妙瓦底,电信火苲马扁.

golang获取prometheus数据(prometheus/client_golang包)

《golang获取prometheus数据(prometheus/client_golang包)》本文主要介绍了使用Go语言的prometheus/client_golang包来获取Prometheu... 目录1. 创建链接1.1 语法1.2 完整示例2. 简单查询2.1 语法2.2 完整示例3. 范围值

javaScript在表单提交时获取表单数据的示例代码

《javaScript在表单提交时获取表单数据的示例代码》本文介绍了五种在JavaScript中获取表单数据的方法:使用FormData对象、手动提取表单数据、使用querySelector获取单个字... 方法 1:使用 FormData 对象FormData 是一个方便的内置对象,用于获取表单中的键值

解读Pandas和Polars的区别及说明

《解读Pandas和Polars的区别及说明》Pandas和Polars是Python中用于数据处理的两个库,Pandas适用于中小规模数据的快速原型开发和复杂数据操作,而Polars则专注于高效数据... 目录Pandas vs Polars 对比表使用场景对比Pandas 的使用场景Polars 的使用

Rust中的BoxT之堆上的数据与递归类型详解

《Rust中的BoxT之堆上的数据与递归类型详解》本文介绍了Rust中的BoxT类型,包括其在堆与栈之间的内存分配,性能优势,以及如何利用BoxT来实现递归类型和处理大小未知类型,通过BoxT,Rus... 目录1. Box<T> 的基础知识1.1 堆与栈的分工1.2 性能优势2.1 递归类型的问题2.2

Python使用Pandas对比两列数据取最大值的五种方法

《Python使用Pandas对比两列数据取最大值的五种方法》本文主要介绍使用Pandas对比两列数据取最大值的五种方法,包括使用max方法、apply方法结合lambda函数、函数、clip方法、w... 目录引言一、使用max方法二、使用apply方法结合lambda函数三、使用np.maximum函数

pip install jupyterlab失败的原因问题及探索

《pipinstalljupyterlab失败的原因问题及探索》在学习Yolo模型时,尝试安装JupyterLab但遇到错误,错误提示缺少Rust和Cargo编译环境,因为pywinpty包需要它... 目录背景问题解决方案总结背景最近在学习Yolo模型,然后其中要下载jupyter(有点LSVmu像一个

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略