本文主要是介绍【Pandas技巧】用pandas_profiling概览DataFrame,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
早上在微博上看见一段视频介绍pandas_profiling ,觉得很好用,便记录了下来。微博小视频地址@爱可可-爱生活
1.安装
pip install pandas_profiling
# 安装时需要更新scipy和matplotlib
pip install scipy --upgrade
pip install matplotlib --upgrade
1.1安装后遇到的问题
import 时报错 :ModuleNotFoundError: No module named 'kiwisolver'
这种错误应该是版本问题,试着升级了一下kiwisolver,问题解决
pip install kiwisolver --upgrade
2.使用
import pandas as pd
train_data = pd.read_csv('round2_data/train_round_2.csv')# 读取数据
profile=pandas_profiling.ProfileReport(train_data, minimal=True)# 生成report, minimal=True为简要输出,适用于大数据集
profile.to_file(output_file="train_data_overview.html")# 存入html格式方便查看
效果图如下:
以day列为例,点击Toggle details可查看详细数据和统计图
每列数据分析结束后有相关性图,但是因为数据列数太多没显示出来
最后是数据的head(10)和tail(10)
另外运行时间会很长,i7-7500U,346列33000行数据运行时间为11247.89s
附上官方文档:https://pypi.org/project/pandas-profiling/
这篇关于【Pandas技巧】用pandas_profiling概览DataFrame的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!