python——pandas 阶段小测二

本文主要是介绍python——pandas 阶段小测二，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在这里插入图片描述
1．从给定的文件 income_new.xlsx 文件中读入数据,并查看前 10 行数据。

import pandas as pd
import numpy as np
df= pd.read_excel('income.xlsx',sep=',')
print(df.head(10))

2.查看数据类型，查看样本总数和特征个数。

print(type(df))
print(df.shape)

3.将受教育时长改为 int 型。

df['受教育时长']=df['受教育时长'].astype(int)
print(type(df['受教育时长'][0]))

4.如果存在重复样本，则删除

df = df.drop_duplicates().reset_index().drop('index', axis=1)

5．（1）统计每列的缺失值个数，并打印输出

count_nan=len(df)-df.count()
print(count_nan)

（2）删除年龄中存在缺失的样本；
提示：使用 dropna 方法时，通过参数 subset 设置删除哪些列上有缺失，为列表
型

df=df.dropna(subset=['年龄'])

（3）对“工作类型” 和”职业”两列，缺失值用众数替换。
提示：众数使用 mode 方法

df['工作类型']=df['工作类型'].fillna(df['工作类型'].mode())
df['职业']=df['职业'].fillna(df['职业'].mode())

6．（1）统计每个数值型变量的均值，中位数，标准差和方差，并打印输出

print(df.describe()

（2）统计每个离散型变量的非缺失值的数量，不同离散值的个数和出现频次最
高的离散值，并打印输出。
【提示：使用 describe 方法】

print(df.describe(include=[np.object]))

7．为方便后续的预测，把所有离散型变量的值转换为整数型的值，以其中两个为例。

df["工作类型"]=pd.Categorical(df["工作类型"]).codes
df["婚姻状态"]=pd.Categorical(df["婚姻状态"]).codes
print(df.head(10))

这篇关于python——pandas 阶段小测二的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！