本文主要是介绍python——pandas 阶段小测二,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1.从给定的文件 income_new.xlsx 文件中读入数据,并查看前 10 行数据。
import pandas as pd
import numpy as np
df= pd.read_excel('income.xlsx',sep=',')
print(df.head(10))
2.查看数据类型,查看样本总数和特征个数。
print(type(df))
print(df.shape)
3.将受教育时长改为 int 型。
df['受教育时长']=df['受教育时长'].astype(int)
print(type(df['受教育时长'][0]))
4.如果存在重复样本,则删除
df = df.drop_duplicates().reset_index().drop('index', axis=1)
5.(1)统计每列的缺失值个数,并打印输出
count_nan=len(df)-df.count()
print(count_nan)
(2)删除年龄中存在缺失的样本;
提示:使用 dropna 方法时,通过参数 subset 设置删除哪些列上有缺失,为列表
型
df=df.dropna(subset=['年龄'])
(3)对“工作类型” 和”职业”两列,缺失值用众数替换。
提示:众数使用 mode 方法
df['工作类型']=df['工作类型'].fillna(df['工作类型'].mode())
df['职业']=df['职业'].fillna(df['职业'].mode())
6.(1)统计每个数值型变量的均值,中位数,标准差和方差,并打印输出
print(df.describe()
(2)统计每个离散型变量的非缺失值的数量,不同离散值的个数和出现频次最
高的离散值,并打印输出。
【提示:使用 describe 方法】
print(df.describe(include=[np.object]))
7.为方便后续的预测,把所有离散型变量的值转换为整数型的值,以其中两个为例。
df["工作类型"]=pd.Categorical(df["工作类型"]).codes
df["婚姻状态"]=pd.Categorical(df["婚姻状态"]).codes
print(df.head(10))
这篇关于python——pandas 阶段小测二的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!