本文主要是介绍pandas中高级应用——jupyter,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一、pandas绘图
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
ts=pd.Series(np.random.randn(1000),index =pd.date_range('1/2/2000',periods=1000))#随机生成1000个数据,index用pandas里日期函数,生成1000个index
ts =ts.cumsum() #累加,一个数等于之前所有数相加,使数据变得更平滑
ts #日期+数据 时间序列
ts.plot(title='pandas plot')
plt.xlabel('x')
plt.ylabel('y')
df=pd.DataFrame(np.random.randn(1000,4),index =pd.date_range('1/2/2000',periods=1000),columns= list('ABCD')) #生成4个1000个数据,随时间变化
df.cumsum().plot() #自动生成四种颜色的数据,累加使数据更光滑,多次执行变成光滑曲线
指定某一列为X:
df['A']=np.arange(1000)
df['C']
df.plot(x = 'A',y='C') #用df里的数据画图,x轴为A,y轴为C列数据
df.C[:5].plot.bar(rot=20) #画出C的前5个数据的柱状图,横坐标倾斜20°
df.C[:5].plot.bar(rot=20,color='purple',title='df.C5')
二、 数据聚合与分组运算
import numpy as np
import pandas as pd
对数据进行分组是数据分析工作的重要部分,对数据的分析,常常是对数据进行分组统计
分组运算过程: 1、确定分组键—即按照分组键进行分组 2、确定分组操作:即在每个小组上应用哪个函数或运算 3、运算结果合并
注意:分组键可以为:数组、DataFrame的某个列、字典、Seires、索引或者列的函数等等。关键要求分组键要与拆分的对象长度相同
df = pd.DataFrame({'animal': 'cat dog cat fish dog cat cat'.split(), 'size': list('SSMMMLL'),'weight': [8, 10, 11, 1, 20, 12, 12],'adult' : [False] * 5 + [True] * 2})
# ':'分隔列, .split()分隔' ',数据按顺序排列 多种表示各种数据的方式
df
计算每种动物的平均重量:
df.groupby('animal')['weight'].mean() #按每种动物分组,对重量求平均值 分组标准+对组的那一项+操作
计算每种动物是否成年,计算其平均体重:
data = df.groupby(['animal','adult'])['weight'].mean() #分组依据有两个
data
type(data) # 双重serials序列
将Series转换为DataFrame
data1 = data.unstack() #将Series转换为DataFrame
data1
type(data1)
df.groupby('animal').size() #统计以animal分组的各组的包含数量
df.groupby('animal')['weight'].apply(lambda x : x - x.mean()) #用动物的体重分组,不同体重的放在不同组,每一组的数据为体重减去分组体重平均值
#自己写lambda函数,再apply应用一下
三、空难数据集处理
找出哪些飞机发生空难的时候,生存率最高
data = pd.read_csv('air1908.csv')
data.head()
data.columns
data.tail()
data.Type
处理nan值的处理
data[['Fatalities','Aboard','Type']].isnull().sum()
data = data[['Fatalities','Aboard','Type']].dropna()
处理Type数据,让其规整化
data.Type = data.Type.map(lambda x:x.split()[0]) #取以' '分隔的第一个数据为这个数据 map:映射
data
想统计各个品牌出现的次数
data.Type.value_counts() #出现次数太少的去掉
找出高频率出现前10的品牌
top10 = data.Type.value_counts()[:10].index #切片的表示方法:取出现次数的前10个数据的index
top10
data.Type.isin(top10) #成员关系判断 从品牌中找top10的数据 false:不在top10 true:在top10
data =data[data.Type.isin(top10)] #data中取type在top10的数据
data.Type.unique() #查看唯一值
data['sv'] =np.round((data.Aboard- data.Fatalities)/ data.Aboard,2) #保留两位小数
data
每个品牌的平均生存几率
data[data.Type =='de']['sv'].mean() #品牌的平均死亡率
data.groupby('Type')['sv'].mean()
四、小费数据集
import seaborn as sns
import pandas as pd
tips是seaborn中的一个数据集
data = sns.load_dataset('tips')
data
观察哪些日子给小费
data.day.unique()
看看哪些餐给小费
data.time.unique()
计算小费比例
data['rate'] =data.tip/data.total_bill #增加一列
观察哪个性别给的小费比例高
data.groupby('sex')['rate'].mean()
观察哪天给的小费比例更高
data.groupby('day')['rate'].mean()
观察哪天哪个性别给的小费比例更高
data.groupby(['day','sex'])['rate'].mean()
观察两者的区别
data.groupby(['sex','day'])['rate'].mean()
可视化
data.groupby(['sex','day'])['rate'].mean().plot.bar(rot=20)
这篇关于pandas中高级应用——jupyter的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!